#DeepSeek AI
讀完200篇論文,看DeepMind、Meta、DeepSeek ,中美巨頭都在描述哪種AGI敘事
在剛剛過去的2025年,我通讀了大約兩百篇人工智慧領域的論文。如果用一個詞來形容這一年的技術體感,那就是「暴力美學」時代的終結。單純依靠堆砌參數摘取低垂果實的日子已經過去,2025年的技術進化回歸到了基礎研究。這篇文章,我想透過梳理這一年的技術脈絡,明確三個結論:的瓶頸,業界被迫尋找新的成長點,即從「把模型做大」轉向把「模型做聰明」。第一,2025年,技術進步主要集中在流體推理(Fluid Reasoning)、長期記憶(Long-term Memory)、空間智能(Spatial Intelligence)以及元學習(Meta-learning) 這四個領域。原因在於Scaling Law在單純的參數規模上遇到了邊際效應遞減,為了突破AGI第二,現在的技術瓶頸主要在模型要「不僅要博學,更要懂思考和能記住」。 透過Yoshua Bengio提出的AGI框架(基於CHC認知理論),我們發現先前的AI存在嚴重的「能力偏科」:它在一般知識(K)上得分極高,但在即時推理(R)、長期記憶(MS)和視覺處理(V)上幾乎是空白。這種不平衡構成了通往AGI的最大阻礙。第三,這些瓶頸在25年其實都找了一些新的解決方向,可以說是補短板很成功的一年。其中最重要的是三個面向。●  推理能力: 透過Test-Time Compute(推理時計算)引發的革命,AI學會了慢思考,推理能力實現了從0到8的質變。●  記憶能力:Titans架構和Nested Learning的出現,打破了Transformer的無狀態假設,讓模型具備了內化的“海馬體”,有望徹底根治金魚記憶。●  空間智能: 視訊生成不再只是像素的堆砌,而是開始掌握物理規律,邁向了真正的世界模型。接下來,我將根據這一年間的論文閱讀,帶領大家詳細看看這些關鍵拼圖是如何被一塊塊補齊的。(因為篇幅限制,各個方向上涉及的論文我只是簡單做了講述,如果有興趣深入了解,可以看文後的相關論文參考。已分章節處理。)01流體推理的演化,Test Time Compute的誕生與發展在2024年,AI明顯的短板是即時推理(R)能力。在GPT-4的時代,AI只會依賴機率直覺,推理什麼的一點不會。但在2025年,Test-Time Compute(推理時計算)透過拉長推理時間來換取智能。 Test-Time Compute 的核心概念是:智慧不僅是參數的函數,也是時間的函數。以OpenAI o1和DeepSeek R1為代表,AI學會了「慢思考」。 透過在推理階段投入更多的運算資源,它開始在輸出答案之前,在內部進行長達數秒甚至數分鐘的自我辯論和推演。這就是2025年最重要的典範革新,讓AI從背書的鸚鵡轉向思考的機器。因為模型的思考過程是無法在預訓練期間進行引導的,因此後訓練、尤其是強化學習(RL),就成了提升推理能力的最重要的手段。但事情並非一帆風順,在2025年,《強化學習真的能激勵LLM超越基座模型的推理能力嗎? 》這篇論文引發了大概半年左右的學術爭論。研究發現,在許多情況下,RLVR訓練後的模型產生的正確推理路徑,其實在基座模型的取樣分佈中原本就存在。 RL的作用只是銳化了分佈,顯著提高了採樣到這些路徑的機率,而並非真正「創造」了基座模型完全未知的推理能力。對此,在後續長達半年的論爭後,現在的通行結論是基座模型可能確實包含了所有必要的原子推理步驟(如加減法、基本邏輯變換),但RL的作用在於透過數萬次的試錯,篩選出能夠穩定維持長距離依賴的策略路徑。另外,CMU研究指出,RL訓練有三個階段。第一階段是“銳利化”,僅提升已知路徑的機率;但隨著訓練深入,模型進入“連結(Chaining)”階段,開始將基座模型中原本機率極低的不對稱技能(如驗證與生成)連結起來,從而解決從未見過的難題。這說明RL不光在銳化,也確實能夠有效組合新的推理方法。但學術界的這種形而上討論,沒能阻止業界的工程優化熱情。因為Benchmark的成長不會騙人。強化學習的本質,就是透過與環境互動獲得回饋,在探索未知與利用已知之間尋找平衡,以最大化長期累積獎勵為目標,從而學習出一套最優的決策策略。因此,它的工程可以拆分成核心的三個策略,探索策略(採樣)、評分(包括評分標準和如何評分)和參數更新演算法三個部分。在2025年,強化學習的方法在其中兩部分都得到了明顯的發展。而採樣的策略則還是集中在蒙特卡洛方法(一步一步尋找新分支)、暴力溫度採樣(調高模型的多樣性,采出多種可能)和在23年大火的STaR 模式(就是模型對自己的結論點評後,根據點評再找別的路)這三種方法上,不過25年,因為DeepSeek R1的成功,因為暴力溫度又能出明顯了主流工程結果。評分系統的革新在2025年首先發生的是基於可驗證獎勵的強化學習(RLVR)和稀疏獎勵指標(ORM)的全面崛起。由於DeepSeek R1的成功,讓大家發現,只要給模型一個對錯結論作為獎勵訊號,模型就可以自發性探索其中的推理過程。這導致了ORM的崛起。而在ORM領域,那些能明確給出結果對錯(可驗證的客觀真理)的領域,例如數學、程式碼、邏輯等方面,強化學習就很好下手,效果也很容易提升。基於這些客觀真理形成的強化學習獎勵機制,就稱為可驗證獎勵。在2025年前半年,RLVR(驗證結果)+GPRO(分組探索解法)的方法突飛猛進,基本上成了主流方法,也帶來了模型在程式碼、數學領域的能力大幅提升。然而,用的久了,大家發現如果像複雜數學、程式碼這種推理過程過長的情況,那ORM很有可能會崩掉。所以有的公司會在其中加一部分過程獎勵評分系統(PRM)的因素,例如Qwen的代碼解釋器驗證,主打辨識推理過程中的錯誤步驟。而防止ORM崩潰跑偏的KL正規理論也在今年有了更多的發展。另一個問題就是RLVR是挺好用的,但不是所有領域都有可驗證的真假,比如在文學、乃至醫療這種更偏統計性的領域,目前就沒有完全的真假科研,那怎麼辦呢?因此我們可能需要一個更宏大的Universal Verifier(通用驗證器),去解決這個問題。目前已經有的兩個思路,一個外求法:既然標準不唯一,那就人工或靠模型製訂複雜的評分細則(Rubic),然後讓模型根據Rubic去進行獎勵。而另一個,是相信模型自己的直覺(內求法),利用模型自己的確信度去影響無明確獎勵的領域訓練。例如Kimi K2的joint RL stage策略,就是把RLVR 和self-critique rubric reward 結合起來做RL。參數更新演算法的革新DeepSeek R1帶來的第二個RL震盪就是GPRO演算法的流行。在過去,RL的主流方法是PPO,在這個框架裡,有兩個角色,一個是Actor Model,負責寫答案。還有一個是Critic Model,來給演員的每一步打分數。這個方法特別適合PRM,給每步都評分,但它非常貴,因為它得一直在線訓練,讓模型嘗試完了再在線打分。但GPRO不一樣,它直接把Critic模型切掉了,讓模型產生一組答案,算平均分數來代替Critic,來看誰做的好,誰做的壞。一下子省下來50%的顯存,搭配ORM,更是極簡中的極簡。非常省成本,效果也不差。因此,基本上國內各家都是在GPRO的框架上延展,在2025年這一年發展出了各種變體。例如Qwen的GSPO的優化引入了分數加權,不只看你是否高於平均分,還看你的絕對得分是多少,讓GPRO能夠從對的里選出更好的,把全錯的都排除出梯度,讓訓練更穩。 Minimax的CISPO,則是發現傳統GPRO / PPO訓練的時候,會暴力截斷過長的COT上下文,導致核心思考沒辦法用起來,所以做了個重要性採樣,保留下更重的部分去更新。除了這些特別具體的更新外,業界同時試圖找到強化學習的Chichila法則。例如Meta的ScaleRL,就在多種消融實驗中發現RL的成長曲線其實有天花板。他們證明了RL性能與計算量之間不符合冪律(就是Scaling Laws那種算力越大,能力越大的模式),而是符合Sigmoid 曲線的(起步難,中間猛,最後死活漲不動)。這不是什麼好消息,表示RL是有天花板的。我們不能指望靠RL 無限提升模型的智力上限。 它只能把模型已有的(預訓練賦予的)潛能「逼」出來,一旦逼到了100%,RL 就失效了。想再突破,還得回去革新底座模型或是演算法架構。但好消息是,我們離天花板還很遠呢,還差著一堆工程創新。另外,基礎模型的能力提升也不是完全停滯的。ScaleRL也提出了一套最佳工程實踐,包括使用長思維鏈(Long CoT)作為關鍵驅動力,以及使用大Batch Size(如2048 prompts)來觸達更高的性能天花板。這項研究將RL從「煉金術」轉變為一門精確的工程科學,使得研究者可以透過小規模實驗精準預測大規模訓練的效果。所有這些對RL工程的探索,使得今年的模型,能夠在不增加參數的情況下,依然在整體能力上穩步上升。一次又一次打破ARC和Humans Last Exam的標尺,同時帶動了數學和程式碼能力的大幅上升。02記憶與學習, 治癒模型的健忘症如果說Test Time Compute是前半年最重要的模式變革,那後半年最重要的模型變革,就是記憶能力的提升。畢竟,這是唯一在GPT-5時代,在AGI得分裡還是0的分支能力,屬於短板中短板,漏水的大戶。模型沒有記憶有啥問題?第一,沒有記憶能力的模型不可能在現實中自我學習,必須得在算力工廠裡再訓練學習。這種再訓練昂貴,訓練源可能與日常使用完全脫節,因此持續學習成了一個無比困難的事項。第二,想有個能記得你是誰,你的偏好的AI,就變得很費力。例如我的Gemini 3,現在只靠系統級的Prompt累積一點點關於我的記憶,但大半還是錯的。在24年大火的RAG(檢索增強生成)雖然作為一種外掛式的「海馬體」緩解了這一問題,但它當時的形態只是資料庫和搜尋機制,還很不好用。在25年,記憶問題的研究其實得到了許多發展,只是大多出現在後半年,尚未真正融合進工程。記憶可以分為三種方式,上下文作為記憶、RAG處理過的上下文作為記憶以及將上下文融合到參數裡,內化的進行記憶。難度層層遞進。今年RAG和參數調整的記憶方式都發生了很大的科研進步,但其中最耀眼的是Google Research發布的Titans 架構以及Nested Learning,是2025年記憶領域的最大突破,屬於架構級提升。從根本上挑戰了Transformer的無狀態假設。我們現在一個個看。模型,獲得活著的記憶Titans 是一個深度的神經長期記憶模組,能夠在測試時(即推理過程中)即時更新自身的參數。這和傳統的Transformer層,訓練完就凍結完全不一樣。 Titans在一開始就是個空容器,就一個初始權重,將歷史資訊學習進神經記憶中。和傳統的壓縮模式(Mamba)比,這種學習是無損的。那怎麼決定什麼東西記憶,什麼不記?靠驚奇度(Surprise Metric),模型會根據輸入資訊的意外程度(梯度大小)來決定是否將其存入長期記憶。這和人差不多,越新鮮有衝擊的東西越記得住。Titans是隨時更新權重的,這意味著還要做反向傳播和梯度更新,豈不是很貴嗎?確實,單看是很費GPU算力,但它一般是和普通Transformer層混用,只佔一小部分,所以雖然但並不很重,而且可以省去巨量的上下文開支。而且,它還可以將記憶作為額外的上下文輸入給注意力機制,如同一個高級助手,提供背景資訊。透過門控機制融合短期注意力與長期記憶,處理更靈活,並行處理短時與長時依賴。這也可以提升模型本身的效率。同時,Titans也引入了遺忘機制(Weight Decay),自動清理不再重要的資訊。如果說這是在不會記新東西的Transformer上加了一些記憶模組補丁,那麼Nested Learning就是一個更宏大的架構改變。在Nested Learning中,Google做了一個分層,把模型的架構分成了低、中、高三個更新頻率的神經網路層。把整個模型的參數凍結都解放了,這個模型都是活的,可以隨時調整參數。低頻參數的調整很慢,大概需要16M token的前向更新才會調整一次。它保證了知識的延續性,避免了災難性遺忘。而快速的回饋則交給高頻的神經網路層處理,這樣可以快速反應,做短期記憶。於是我們就有了一個持續更​​新的,非凍結的神經網絡,它可以抱持長期記憶,並持續學習。而且因為更新頻率不高,且更新比較局部,其成本比一般的SFT、RL達成同等效果的成本還要低。谷歌甚至提出了一個更大的體系MIRAS,它把序列模型看成一個會邊讀邊寫的聯想記憶模組。每一個token,你把它投影成key 和value;模型用當前記憶去「檢索/回憶」一個value;然後用一個內部目標函數(attentional bias)和一個保留/遺忘約束(retention gate),透過某種線上優化/更新演算法(memory learning algorithm)去更新記憶。 Titans和Nested Learning,都屬於在不同層面上對MIRAS的嘗試。這項調整,使得模型具備了持續學習和更新長期記憶的基礎。不過考慮到它對模型架構的改變,在工業大規模應用上可能還需要一段時間。RAG模型化之前,RAG曾被訌諷為圖書館員,只增不減,照單全收。但2025年,它發生了質的飛躍,演變為具備反思與進化能力的系統,甚至可以在一定程度上產生如同參數般的效果。這波RAG改造浪潮中,比較有代表性的還是DeepMind 提出的ReMem 和Evo-Memory。ReMem讓RAG不再是簡單的資料庫式的“檢索-生成”,而是透過一個Agent 引入了Action-Think-Memory Refine 的全鏈路處理方法。在新上下文存入記憶前,會有個Agent對其進行「內省」(Think),標記出那些是無效步驟,那些是關鍵策略。在記憶過程中,模型也會對進來的上下文進行修剪(Pruning)和重組(Reorganizing),讓它更容易被檢索,保留最重要的資訊。同時,模型會定期清理無用的記憶,甚至將失敗的嘗試作為「負面教材」存入,其效果等同於RLHF(人類回饋強化學習)的負向懲罰。這機制使得記憶不再是靜止的錄影,而是經過壓縮和提純的智慧。它儲存的更多是策略,使得模型在處理類似任務時能夠調用過往的成功經驗,實現了真正的經驗復用。微調與蒸餾讓遺忘性災難不再存在在2025年之前,災難性遺忘是參數記憶更新的最大敵人。模型用微調的方式做更新,很容易學了新的忘了舊的,通用能力受損;用強化學習做更新,不容易遺忘,但成本又太高。但在2025年,學術界提出了多種解決方案,讓模型在學習新知的同時不失去舊能力。例如Meta 提出的Sparse Memory Finetuning (稀疏記憶微調)。它在Tansformer裡加了一個百萬個獨立插槽的空白記憶體層。當新知識進入時,系統篩選出更不重要的、和核心舊知識相關性不高的插槽進行更新。這種稀疏更新策略,確保了在註入新知識的同時,絕大部分舊參數保持不變,從而完美保留了原有能力。實驗表明,在TriviaQA事實注入任務中,該方法僅導致11%的舊知識遺忘,遠優於全量微調的89%。再如Thinking Machines 提出的在策略蒸餾(On-Policy Distillation, OPD),結合了RL 的取樣方式和SFT 的監督訊號。訓練資料不再是老師的錄影,而是學生模型自己即時產生的軌跡。學生要在自己真實的「犯錯分佈」中學習,這是RL的取樣方法。但它評估用的是SFT的密集回饋,老師模型會全程陪跑,在學生生成的每一個Token 上都計算KL 散度(即直接告訴學生你和我的差距在那裡),提供密集的即時反饋,而不是像RL 那樣最後才給一個標量分數。這種方法創造了一種既不會導致災難性遺忘,同時也極大壓縮成本的參數更新方式。兩條路徑,最終都導向了透過微調更新模型參數更穩定的路徑,這樣的話模型就可以更快捷、便宜的進行線下更新。夢想中的白天模型陪你說話, 晚上你睡覺更新你的神經元連接,它微調更新它的參數,也許會變成可能。03走出“柏拉圖洞穴”,迎來空間智能(Gv) 與世界模型另一個在Bengio AGI定義2024年得分還是0的一項,就是視覺處理。今年,這項能力在Sora 2、 Veo 3等生成影片的爆發之下,得到了有效的提升。在Veo 3等模型能夠有效保持物體位置一致性的情況下,模型似乎開始有了對物理規律更深的掌握,進入到了空間智能和世界模型(World Models)的範疇。雖然今年主要是李飛飛在大力宣揚空間智能的概念。但實際上在這條路上,一共有三個主流派系和玩家,在今年也都各有研究進展。自監督生成模型的Scaling Law第一派就是Sora 2、Veo 3這些採用了DiT架構的自監督模型,也就是我們常見的視訊生成模型。不過要論空間智能,2025年8月,Google DeepMind發表的Genie 3更明顯。 Genie 3,是個生成的、可互動的、持續演變的3D環境。與其前代相對破碎的呈現不同,Genie 3具有了即時性和一致性。它能以24fps的幀率和720p的解析度即時渲染環境,且能維持數分鐘的場景一致性。如果你在虛擬世界中打破了一個花瓶,當你轉身離開再回來時,花瓶碎片依然在地上,而不是像早期生成視頻那樣莫名消失或復原。除此之外,Genie 3非常好的展現了自監督模型的物理學習能力。它完全沒有參考物理引擎,只是透過觀看海量影片數據,自發性地學會了流體流動、光影反射甚至風吹樹葉的物理規律。之所以視訊生成模型能夠獲得如此大的進步,主要是因為學術界發現了視覺自回歸(Visual Autoregressive, VAR)和擴散Transformer(DiT)的Scaling Law。2024年,字節的Visual Autoregressive (VAR) 模型的提出,排除了Diffusion部分,透過改變token的建模,從行變成圖,讓自回歸獨挑大樑。因為是純自回歸,它的性能嚴格遵循Scaling Law。但這個路子畢竟還是有點野。在25年的論文《Towards Precise Scaling Laws for Video Diffusion Transformers》,更主流的DiT也被發現符合Scaling Law,不過這個Law與LLM不太一樣。與LLM相對穩定的特性不一樣,視訊擴散模型對批量大小(Batch Size)和學習率(Learning Rate)表現出極高的敏感度。直接套用LLM的縮放定律會導致預測失效。但用上特製的Scaling Law,DiT模型就可以大力出奇蹟了。在Veo 3成員的訪談中,Deepmind的員工就表示,訓練這麼好,主要是打通了影片產生的Scaling Law。除此之外,今年影片產生的另一個新變化就是加上聲音了。這主要歸功於Google一直堅持的原生多模態能力。而2025年4月,Apple Machine Learning Research發表了《Scaling Laws for Native Multimodal Models》發現,晚期融合架構(後台多模態)相對於早期融合架構(原生多模態)可能存在一定上限上的劣勢。過去晚期融合模型通常表現出較高的樣本效率,就是我後面加一個影像編碼器,就可以直接讓語言模型變成視訊模型,變化賊快。這意味著費力去訓原生多模態,得不償失。但晚期融合模型在參數利用率上存在瓶頸,為了達到特定的性能水平,晚期融合架構得需要更大的模型尺寸來補償那個新加視覺編碼器帶來的表徵限制,因此同等規模,上限更低。另一個特別值得注意的動向,是VAE的消失。 VAE你可以理解成視訊的壓縮器。一個影片包含的資訊太多,直接給模型,它就會崩潰,所以需要一個壓縮器去壓縮成模型可接受的資訊密度。但這麼一壓縮,重構必然會導致高頻細節丟失,而且VAE是獨立的模型,其生成的Latent Space 與大語言模型(LLM)或多模態模型(VLM)的語義空間不對齊,訓練上非常麻煩。2025 年10 月快手的《Latent Diffusion Model without Variational Autoencoder》 論文提出了SVG 模型,透過直接用影像理解模型取代VAE,統一語意空間,這個模式大大提升了訓練效率(號稱提升6200%)和生成速度。而且它的效果不但沒有因為「快」而縮水,反而在多項核心指標上擊敗了現在的霸主DiT(Diffusion Transformer)和SDXL。因為這個模式,有大一統的美,又有benchmark的美,應該很快就會成為主流。符號主義的World Labs :基於3D CV生成的世界第二派是史丹佛教授李飛飛領導的World Labs 派。這一派的特色就是,生成好,但要在固定的物理框架下生成。純粹自監督,太不可靠了。他們在2025年11月推出了首個商業產品Marble平台。這是一個「大型世界模型」(LWM),旨在從多模態輸入中產生可探索的3D 環境。與Sora 輸出像素流(影片)不同,Marble 輸出的是空間表示。根據媒體分析,Marble 大概率是依賴3D 高斯潑濺(3DGS) 作為其渲染基元,並可能結合了神經輻射場(NeRF)的結構估計原則。當使用者輸入單張圖像或文字提示時,Marble 會估計場景的深度、光照和被遮蔽的幾何結構。然後,它將這些2D 資訊「提升」為由數百萬個高斯「潑濺」(具有顏色、不透明度和縮放屬性的橢球體)組成的3D 體積。始終是放不下CV多年來世界建構的努力。這種對傳統CV的應用,也體現在World Labs 提供的創作工具Chisel 上。它引入了神經符號(Neuro-symbolic)工作流程。使用者可以使用粗略的幾何基元(盒子、平面)定義世界的“骨架”,以建立佈局約束(例如,“我需要這裡有一扇門,那裡有一堵牆”)。生成模型隨後根據文字提示對這一結構進行「繪製」和細節填充。比起Sora 生成的黑盒,Marble雖然不是很性感,但確實更穩定,更可控。也許World Labs這條路能是最早走通工業落地的方向。預測即理解:V-JEPA 2與物理直覺另外一派代表是Yann Lecun,他的特色就是極端的深度學習表徵派。對於他,大家可能都或多或少聽過,Lecun的觀點一直是:自回歸的生成式模型根本不可能掌握物理規則,只是鸚鵡而已。那要怎麼掌握規則呢?靠預測。只有預測,能學習物理規則的表徵,而不是那些像素的關係表徵。 Meta推出的V-JEPA 2,訓練機制就是隨機遮住影像的一部分(Masking),然後要求模型根據先前看到的畫面,預測被遮蔽部分的內容,只練預測。然後,一個教師編碼器看到完整的視頻,根據這個幫學生,生成目標特徵向量。這種設計使得V-JEPA 2具備了極高的語意抽象能力。模型被迫學習場景中那些「可預測」的規律(如重力下落、剛體碰撞),而自動忽略那些「不可預測」的隨機雜訊(如光斑的閃爍、背景的紋理雜訊)。在Yann Lecun的考慮中,這提取了因果本質。這套理念其實並不新,和他2024年初發布的V-JEPA 1完全一致。但當時,V-JEPA 1 只用了100M左右的資料集做訓練,其效果只能是理解視頻,並不能展現出反事實預測的能力。但在V-JEPA 2裡,Lecun優化了訓練過程,花了100萬+ 小時的影片訓練集,結果模型確實湧現了「推演」的能力。在V-JEPA 2-AC(動作條件化)變體中,JEPA模型確實做到了可以預測「如果我執行這個動作,世界會變成什麼樣子」。這毫無疑問,是對這條路徑的一劑強心針。說明預測,掌握物理規則這個訓練模式是有效的。不過到了JEPA 2,它能夠處理的時間跨度也不過64幀(根據採樣規律,約10秒),分辨率只有384x384。和人家生成路線高清2k、20s生成比起來,還是差太多。想要真正實用,還得在工程上做不少事。04重要的是學習從深度學習肇始,核心問題就只有一個,也就是什麼是學習。到2024年為止,大模型早已經具有了許多學習能力,能夠從海量資料中尋找到資料的連結方式,進而達成一種與人不同的學習模式。然而,在2025年,強化學習之父Richard Sutton 仍然批評當前的大語言模型(LLM)只是“被凍結的過去知識”,缺乏在與環境交互中實時學習的能力。這是說模型缺乏持續學習的能力,這個問題在上面記憶部分有可能會被解決。Sutton的另一個批評就是模型並不會元學習,也就是學習怎麼去學習,學什麼。他所謂的元方法(Meta-methods),指的就是「在這個時刻不要把知識寫死,而是把『獲取知識的能力』寫進程式碼裡」的方法。這樣,模型才能利用無限的算力和數據,去適應無限變化的世界。只有有元學習的能力的模型,才能在遇到新問題時, 透過很少幾個樣本,調動腦子裡的「通用解題邏輯」(元知識),立刻做出解答,做到真正的低成本、快速適應。並透過「如何觀察特徵、如何歸納特徵」的能力,迅速歸納出規則達成完整的動態泛化。沒有元學習,模型就不可能應付未知。 因為你無法預知未來會遇到什麼任務,所以你不能預先訓練它,只能賦予它現場學習的能力。元學習與中訓練在2024年之前,學術界一直有關於當時模型是否具有隱性元學習能力的討論。很多人認為是有的,因為有上下文學習(In-Context Learning)的現象。因為我們不改動參數,只是給GPT 看幾個例子(Prompt),它就像學過了一樣能夠舉一反三。對此,包括Anthropic在內的研究機構,都提出Transformer中的注意力機制在數學形式上,與模型學習時梯度下降(Gradient Descent)的更新步驟非常類似。 Deepmind的論文,更證明對於線性注意力模型,Transformer 的前向傳播過程可以被嚴格推導為「在大規模預訓練學到的權重上執行梯度下降」的過程。但同樣,也有很多研究,證明上下文學習其實沒在新學習例子中給出的映射關係,只是在自身的概念空間裡,利用格式(Format)激活了預訓練期間早就記住的知識。就是說啟動了相關性而已,不是真在學,而是在套模版。這和我們所提到的元學習的理念大相逕庭。不過,在2025年12月份,蘇黎世理工也發表了一篇Meta RL的論文,設計了更好的脈絡框架,更有效的利用ICL來作為一種元學習的方式。讓模型透過上下文自我反思和歷史回溯,來形成新策略。在下一次嘗試中,Agent 實際上是在執行一個新的Policy ,因為上下文變了。它看起來和上面提到的谷歌的ReMeM很像,但更關注策略更新,而不是上下文管理。也許他們結合起來,才是最好的上下文作為權重的方法。但最大的改變,是TTC的到來,為隱性元學習提供了其他的可能性。在推理革命初期,大家都發現可能模型思考了很長一段時間,輸出了很長的思維鏈,但要不是沒用,就是都是錯的。所以不是思維鏈越長模型就越強。我們得引導它的思考過程,讓它在最短的思考中,達成最優解。這其實本質上就是一種訓練模式如何思考的元學習。卡內基美隆的研究《Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning》就是在這個方向上的嘗試。它先證明了,模型在推理時產生的長CoT,本質上是一個Agent 在思考空間中探索最優路徑。那如果這種探索可以做到更有效,其實就是一種元學習的能力。這種元學習,就是引導模型在推理過程中,能有效尋找最佳路徑,合理地分配算力。他們使用的策略是累積遺憾最小化(Cumulative Regret)。如果模型多思考了很多步,但答案的置信度沒有提升,這就是個遺憾,需要在後續規避。我們在做強化學習的時候,應該引導模型盡可能減少遺憾發生的可能,讓模型知道遇到這種難度的題,我應該呼叫多少算力、嘗試幾條路徑。這就是學習的方法。但這些方法,雖然比單純的脈絡學習走的遠,但仍侷限在優化現有的探索路徑這個層面,向外探索的能力仍然不足。我們可能仍需要在單純的梯度之外,建構一套明確的系統,引導模型學習學習。例如DeepMind 今年發表DiscoRL,它包含兩個核心閉環:內部循環由Agent在Atari等遊戲環境中試錯,外部循環則由「老師」透過反向傳播觀察學生的表現,不斷修正教學策略(即更新學習演算法的參數)。這個過程讓AI自主發現了想要得到最好的結果,得從“獎勵最大化”轉向“未來預測”,而且這些預測往往集中在重大事件(如Ahamoment和改變方向)發生之前。在這過程中,教師獨立「重新發現」了RL中的自舉法,證明了AI可以透過這種遞歸的抽象從純粹經驗中真的學習到應該如何去探索。實驗結果顯示,由此系統自主發現的演算法(Disco57)不僅在雅達利基準上擊敗了包括MuZero在內的人類設計頂級演算法,更展現了驚人的泛化能力。即使在未見過的ProcGen和NetHack等複雜環境中,它依然表現出色,證明其學到的不是單一遊戲的技巧,而是普適通用的學習法則。Meta在《Agent Learning via Early Experience》的中訓練嘗試,其實也殊途同歸的走向了一樣的路徑。預訓練是讓AI死記硬背專家的正確操作,RL是直接扔到現實世界裡依靠稀缺的獎勵摸爬滾打。而中訓練,就是在這之間讓Agent自己瞎折騰產生後果,並且反思。具體到操作層面,在專家演示的每一步,會強制AI嘗試幾種不同的“備選動作”,然後記錄下這些動作會讓環境變成什麼樣。同時,也要對為什麼專家做得好,我做的不好進行反思。這其實就是訓練AI不僅僅知道“怎麼做是對的”,而是建立起“如果我這樣做,世界會那樣變”的因果模型。在一種探索和嘗試,以及對嘗試經驗的遞歸中,模型也許確實學會瞭如何學習這個世界的規律。它能顯著提升其在WebShop、ALFWorld等複雜環境中的成功率(平均提升9.6%),並大幅增強了泛化能力。這幾種方法有一個共通性,即他們都掌握了「想有效探索,必須建立一個對世界的預測」的想法。這和Google《General Agents Need World Models》一文的結論不謀而合。神經科學的投影2025年的神經科學研究,讓我們可能能更理解人類是如何進行學習的。過去我們認為神經網路是一個混雜的“黑盒”,但在《Building compositional tasks with shared neural subspaces》這篇論文證明了大腦內部存在著結構化、正交化的神經子空間。這些子空間就像是物理層面的“符號”,它們將“顏色”、“形狀”、“動作”等概念從混沌的電信號中剝離出來,形成了獨立的、可複用的模組。研究發現,大腦執行新任務不是靠修改神經元的連結(長出新腦細胞),而是靠一種「動態路由」機制。前額葉皮質根據當前的“任務信念”,像接線員一樣將不同的神經子空間重新連線。其實人類在學習過程中,是將簡單的模組拼裝成新任務來去行動。今年哈佛的論文《WHAT DOES IT MEAN TO UNDERSTAND LANGUAGE?》則認為大腦的「語言區域」其實並不負責真正深刻的理解,它只是做了一些表層的處理,然後必須把訊息「外派」給大腦的其他專門區域(比如負責視覺、社交、物理推理的區域),才能實現真正的「深度理解」。在這種理解之上,2025年湧現了許多對模型進行分區的嘗試,包括上述的記憶分區,或是把模型的參數分成專門處理快、慢反應的兩個組別的嘗試。05讀寫速度、注意力和Scaling Law的基礎以上四個部分,可以說是2025年最引人注目的四個進步。因為它們在AGI的量表中,都是一步步覆蓋到原來完全為0的新領域。從零奠基,範式革新。然而在這之外,2025年也有其他一些重要改變,有效的補齊了過去模型並不擅長的領域(例如上下文和處理速度),並且可能隱含著一些訓練範式上的大規模修正可能。以下我們就透過一章,快速涵蓋這些領域。對抗“Scaling Law的消失”就像文章一開始所寫,在2024年末時,GPT 4.5已經遇到了網路資料枯竭的問題。而且在訓練超大型稠密模型的工程難度也幾何增加,問題不斷。Scaling Law眼看難以為繼之時,OpenAI 在GPT-5.2 中並未繼續盲目擴大參數,而是靠稀疏性(Sparsity),即MoE、合成資料(Synthetic Data)與RL加強三方結合,突破瓶頸。MoE,是DeepSeek 一直以來的方法,在V3成功之前, 業內很少有人使用。但它確實具有訓練資源消耗少的特徵(一次訓練整個模型vs 一次只訓部分專家),因此,大規模稠密模型帶來的工程問題在一定程度上被解決。而強化學習和測試時時間,讓模型可以繞過參數的Scaling Law,用上面說到的RL的Scaling Law繼續提升能力。但數據怎麼辦?在2025年,隨著推理能力的進步,模型現在已經可以自主生成長思維鏈(COT)文本了。 DeepSeek R1的論文表明,利用DeepSeek-R1產生的長思維鏈對小模型進行微調,其效果遠超使用人類專家編寫的CoT數據。因此,到此時合成資料的問題已經解決了一半。另外,2025年也有很多證據證明,數據在精,不在多。而且品質最好的就是長COT數據。芝加哥大學團隊的實驗數據表明,當數據量達到一定規模後,資訊大多是重複冗餘的,訓練效果反而不好。與其盲目追求P資料量,不如透過去重和多樣性篩選來降低資料密度,加強單位資料的「驚奇度」(Surprisal)。而且最有驚奇度的在現階段正是長COT。在他們的實驗Select2Reason中,僅僅篩選出前10% 推理路徑最長、最複雜的樣本進行訓練,其效果就匹配甚至超越了全量數據集。因此,長COT文字合成數據,已經成了翻越數據牆的一種最有希望的方式。但2025年10月的一項熱點研究發現,模型在大規模使用合成數據,包括互聯網上流行的AI生成數據後,會發生“腦損傷”,也就是遞歸(持續用自己推導自己)導致的模型崩潰(Model Collapse)。一方面模型的長尾泛化能力下降,另一方面,模型會持續放大過去產生的錯誤,盲目自信。不過研究並沒有單獨拎出來長COT文字資料做範例。好在這並非必然。南洋科技大在NeurIPS 2025的論文中,就建立了一種利用自我驗證機制過濾資料的方法。在產生合成資料後,模型會計算其內部置信度分數。如果分數低於某個閾值,表示模型對該生成內容存疑,那麼這些資料就要被丟棄。他們的數據證明,只要模型的校準誤差在一定界限內,僅憑自我驗證就可以在完全合成(Fully Synthetic)的資料體制下,讓模型一直訓練下去,而不會崩潰。在2025年,科學研究界也發明出了更複雜的方法來做清洗。例如利用另一個模型作為裁判(LLM-as-a-Judge)去搭建一個資料清洗流,確保其可驗證性和效果。甚至有意識的讓Agent去生產模型知識空間中的空白(Missing Nodes),以解決遞歸帶來的多樣性喪失。感謝蒸餾,我們或許不必再承擔推理慢的代價了Gemini 3 Flash在年底的橫空出世,讓人對小模型的能力提升有了非常直觀的感受。在Gemini 3 Flash之前,雖然Nvidia一直鼓吹小模型時代,微軟的Phi 4、谷歌的Gemma 3等小模型也表現不俗,但沒有任何一家的小模型能夠真正替代自家主流模型成為日常主力模型。所以2025年這一年到底發生了什麼,讓小模型突飛猛進?主要是蒸餾方法的兩大主要的進步:MoE的蒸餾,以及COT的蒸餾上。先說MoE蒸餾。在DeepSeek的帶領下,現在主流的模型都是用MoE的架構了。但先前的傳統的蒸餾方法往往忽略了那些未被路由選中的專家(Non-activated Experts)所蘊含的「暗知識」。2025年2月的論文《Every Expert Matters》就提出了針對MoE 的特化蒸餾方案。此方法在蒸餾過程中,透過多次採樣或強制活化策略,讓學生模型接觸教師模型中不同專家的組合輸出。這樣學生模型(通常是較小的稠密模型)不僅學習到了“最優解”,還學習到了不同專家對同一問題的不同視角。這類研究,給出了MoE蒸餾的工程方向。另一個難題就是將長思維鏈能力高效遷移到小模型。傳統的單一教師蒸餾處理長序列推理中的誤差累積問題非常不力,並不適合長COT的蒸餾。而簡單的將多位教師的資料混合(Data Union)往往會因為推理路徑的衝突而導致模型困惑,反而降低了效能。為了能因應這個情況,思維融合蒸餾(Merge-of-Thought, MoT) 應運而生。這是一個輕量級的、迭代式的蒸餾框架,透過共識去噪(Consensus Denoising)原理,讓多個教師可以有效的引導學生模型,還可以避免長序列推理的誤差累積。例如在解決同一個複雜數學或邏輯問題時,不同教師的表達各異,但其核心的推理邏輯往往是相似的。就那乾脆在高維度參數空間中,讓學生模型能夠提取出所有教師的“公約數”,即最穩健的推理邏輯。透過這兩種方式,加上長COT本身對蒸餾的增強作用,讓小模型的能力越來越強。也許有一天,我們甚至不用犧牲推理帶來的速度減緩,就能享受完整的智慧體驗了。注意力機制的變化,解放脈絡每一年,注意力機制都會有些新突破。畢竟這是自迴歸框架下最重要的機制之一,它深度影響了大模型的脈絡能力和指令遵從能力。 2025年的變化相對比較多元。如果說2024年以前是MHA(多頭注意力)的時代,那麼2025年則是MLA(Multi-Head Latent Attention,多頭潛在註意力)及其變體全面普及的時代。從DeepSeek從V3開始採用MLA架構後,它就開始大受歡迎。畢竟既能壓縮大量降低顯存佔用,又能保持了原有註意力機制的水平,多好。而且在推理COT越來越長的背景下,的KV Cache顯存爆炸問題更嚴重,MLA 也更加流行。不過在發展過程中,MLA現在很少是作為一個獨立的注意力層被應用,而是更多地作為一種「高性能組件」被嵌入到混合架構中,給其他更高效的注意力新方法做精度保底。2025年的另一個變化是線性注意力的複歸。長期以來,線性注意力被視為全注意力的一種「有損壓縮」妥協方案,它用精確度的下降換取推理速度。但在2025年,隨著Kimi Linear的發布,這種刻板印象被徹底打破。Kimi Linear採用3:1混合架構(3層線性穿插1層MLA),利用線性注意力層承擔主要的計算負載(節省75% KV緩存),再利用MLA兜底全局信息,實現了在1M超長上下文任務(RULER測試)中達到94.8的高分,性能上首次全面超越全注意力。這標誌著線性注意力現在又了從備胎轉為主力的實力。除此之外,Kimi還證明了線性注意力可以內在地學習各個token的位置信息,從而不再需要傳統的RoPE(旋轉位置編碼),在1M上下文解碼時,少了ROPE和N方的計算量,它的吞吐量可以達到全注意力的6.3倍。除了在傳統的Token層面優化注意力,2025年的另一個重要趨勢是打破離散Token的限制,朝向連續空間(Continuous Space)演進。這以「大型概念模型」(Large Concept Models, LCM)和騰訊的CALM(Continuous Autoregressive Language Models)為代表。傳統的LLM只預測下一個token,因此非常慢,且對於長文本概念的關聯性理解也不行。 Meta的Large Comcept Moedel 則試圖將多個Token壓縮為連續向量,從「預測下一個字」轉變為「預測下一個概念向量」。這增加了每個生成步驟的“語義頻寬”,在一次推理步驟中產生相當於原來4倍的信息量,理論上能讓模型訓練和推理的更快。這個邏輯很好,但在LCM提出時,因為壓縮token向量的工程化問題,其訓練效率並沒有比傳統方法提升太多。但今年10月,騰訊的CALM才第一次在工程上找到了平衡點,用更極簡的方式證明了這條路徑的工業可行性。062026,模型研究可能往那裡走?在了解完2025年模型的進步路徑後,我們可以暢想明年可能出現的一些研究方向。首先,我們上面提及的這些方向,毫無疑問會朝著更精細化和工程化的方向演進,進而為我們帶來模型體驗上的持續提升。從2025年的技術總結中,我們已經可以看到,幾乎所有重要的Scaling Law繼續發威的絆腳石都被搬的七七八八了。也正是因此,我們才在年末迎來了Gemini 3和GPT 5兩個確實提昇明顯的新模型。雖然像Test Time Compute這類範式革新性的創新是難以預測的,但有些已有苗頭的新方向很可能會在2026年結果,產生很重要的落地應用。我下面會羅列一些我認為可能會發生的技術推進方向。記憶的工程化實踐2026年,一定是記憶大年。因為記憶關切持續學習,事關Agent落地(個人化和新技能學習),如果理論上的方向已經明確,那除了工程上的難題外,基本上沒有什麼可以阻止它落地。在AI領域,我們以TTC革命為例子,可以看到一個複雜的系統性新想法從產生、實驗、工程落地,大概需要的時間是2年左右。 2024年末的GPT o1,實際上在22年左右,已經在Illya腦海中逐步成型,到方法確定和工程優化,大概用了整整兩年。在2025年,我們看到了從RAG、微調到架構上三種路徑上的思考都逐步邁向成熟,並且已經進行了小規模的實驗。這說明很可能再有一年時間,這些研究成果就可能在工程上成熟,被採用。在一個成功架構(例如像DeepSeek R1)的推動下,成為標配,完成範式轉換。即使做不到架構層的變化,RAG層的精修和SFT技術的最佳化,也可以讓之前那些實驗性的記憶系統,例如Mem0、Second Me有了更好的落地體驗。在2025年中,基本上主流模型都已經配置了基於情境的記憶系統。但在2026年,更細節,更具學習性的記憶將會逐步被產品化。標準架構的變革不論是Nested Learning、還是元學習,以及Universe of Thought,似乎都在證明著,我們當下的語言模型架構必須進行一些升級,才可能補全其缺失的能力。這種升級的趨勢主要以分區、分層、增加更多功能層為特質。不管是直接在層級間加入Titans 的記憶層,還是像Herachical Reasoning 那樣,把模型分成不同的分區,都可能更符合人腦運作的模式。在2026年,這種潛在的混合架構,可能會隨著神經學和符號主義的回潮,變得有更多更豐富的嘗試。進化的螺旋開啟2025年除了推理這個字之外,最熱門的應該就是自進化了。這是機器學習的聖杯。一個可以無限自我對弈、自我演化的通用型AI,基本上等於是AGI、ASI。不過在2025年,探索才剛起步。在這一年裡,有借鑒了生成式對抗網絡,讓模型能夠在無數據的情況下,自問自答進行強化學習的。這條路確實走的通,也確實是自進化,但它的上限依然受制於模型本身的預訓練能力,暫時沒有呈現出超過人工設計的後訓練的水平。自進化AI的另一個驗證方法是是否能發明出讓自己進化的演算法。這就是Alpha Evolve努力的一個方向。它是由系統使用Gemini Flash(追求速度)和Gemini Pro(追求深度)組成的模型集成,形成一個獨立的探索Agent。系統將目前表現最好的演算法程式碼作為上下文輸入LLM,並告訴這些Agent,去優化這段程式碼的某些具體方向。 LLM由此產生多個變異版本的程式碼。在Agent規則的限制下,這些變異一般是邏輯層面的重構,例如改變循環結構、引入新的數學技巧或調整資料結構。產生的程式碼會被放入沙箱環境中執行。系統透過預先定義的測試案例驗證其正確性(Provable Correctness),並透過效能分析器測量其效率(如延遲、吞吐量或指令數)。那些既正確又更有效率的演算法將被保留,成為下一代的父本。由此,持續的多次最佳化,最終帶來演算法的最優最佳化。在實踐上,Alpha Evolve確實找到了優於人類答案的最佳化演算法。不過,我們其實可以把Alpha Evolve看成Deep research的變體版本,只是把搜尋部分換成優化而已。在缺乏反思和內化,只是作為流程Agent存在的大模型,雖然確實可以找到演化演算法,但很難稱之為自進化。以上兩種比較有代表性的嘗試,其實都屬於自進化早期的嘗試。在記憶、合成資料、後設學習的模式完善之後,自進化的AI在2026年必然會產生更多的可能性。(騰訊科技)
DeepSeek 刷屏後,阿里大佬潑冷水:中國 AI 3-5 年內趕超美國?只有 20%。
這兩天,DeepSeek 新版將在春節前發佈的消息,讓整個網路又沸騰了,全網都在等著再次見證奇蹟。但昨天的一場 AI 高端局,卻給這股熱浪狠狠澆了一盆冷水。阿里通義千問的大佬在會上直言:中國 AI 三到五年內超越美國的機率,樂觀地說,也只有 20%。這番“暴論”,跟我們熟知的“差距僅剩三個月”簡直大相逕庭。這到底是怎麼回事兒?01|一場全明星的閉門會事情的起因,是昨天舉辦的一場名為 AGI-NEXT 的閉門峰會。這場局的含金量簡直高得嚇人,堪稱中國 AI 界的“全明星陣容”。智譜 AI 的創始人 唐傑、Kimi 的創始人楊植麟、阿里通義千問的技術負責人林俊暘。以及最近的“當紅炸子雞”——騰訊 AI 科學家姚順雨,全都到齊了。峰會具體聊了什麼“乾貨”,外界鮮有報導。但最後流出的圓桌對話環節,卻在圈子裡引發了熱議。而真正讓這件事出圈的,是主持人拋出的最後一個、也是最犀利的問題:“未來 3 到 5 年,中國任何一家公司在 AI 方面超越美國的機率,到底有多大?”面對這個直擊靈魂的提問,現場並沒有出現預想中的“豪言壯語”。相反,阿里通義千問的林俊暘略作沉思,給了一個極其誠實、甚至聽起來有點刺耳的回答:“我覺得是 20% 吧,這已經非常樂觀了。”這…意思是不能說希望全無吧,至少也是希望渺茫。果真如此嗎?02 |一場“富二代”和“窮小子”的遊戲首先,咱們得認清一個現實:在這一輪 AI 競賽裡,我們在核心硬體上確實比對手“窮”。這個“窮”,指的是算力。林俊暘在會上打了一個讓我破防的比喻:美國的實驗室就像是“富哥”。人家的算力比我們大 1-2 個數量級,那是真的“家裡有礦”。即便有些實驗是浪費的,他們也有資本投入海量的資源去試錯,去做下一代的前沿研究。而我們的實驗室呢?真的叫“捉襟見肘”。國內的大模型團隊,光是滿足當下的產品交付,可能就已經把手頭所有的顯示卡佔滿了。(阿里都如此?)當然,現場討論也擔憂光刻機等能否攻破的問題。不過也有很對反對的聲音認為,正是這種“匱乏”,逼出了中國公司的極致效率。DeepSeek 就是一個例子:當矽谷還在迷信“大力出奇蹟”時,它硬是靠著架構創新,用僅有的一點算力,把模型訓練成本打到了令人髮指的“白菜價”。也難怪黃仁勳在 CES 上直言:中國開源模型已是全球第一梯隊,推理效率甚至吊打美國。(他甚至首次在他的 PPT 裡面直接用了大量中國模型)圖:輝達 CEO 黃仁勳在 CES 2026 上以中國模型為例他警告同行:“封鎖反而逼出了一個可怕的對手。”窮有窮的打法,這恰恰是我們的韌性。03|馬斯克的“神預言”:真正的瓶頸是“電”,不是“芯”如果說晶片是現在的短板,那馬斯克最近的一個判斷,可能指出了我們未來的“隱藏大招”。不同於大家死盯著顯示卡看,馬斯克在最新的訪談中拋出了一個觀點:AI 競賽的下半場,瓶頸根本不是晶片,而是電力。他在播客裡直言:“中國的 AI 算力將遠超世界其他地方。”為什麼?因為雖然美國晶片強,但美國的電網太老舊了!建一個資料中心,光等排隊接電就得好幾年。而中國?“基建狂魔”不是白叫的。馬斯克預測,到 2026 年,中國的發電增量可能是美國的 3 倍。拼到最後,這可能是一場能源戰。而這,恰恰是“基建狂魔”的主場。04|學術界“補位”:正在批次製造“牛頓”除了工業界的死磕,這場對話還讓我看到了另一股最容易被忽視的力量:學術界。以前我們總覺得,學術界是不是落後了?大家都在搞大模型,教授們還沒卡,能研究出啥?但香港科技大學榮休教授楊強給出了一個非常精彩的觀點:工業界就像當年的伽利略,先發明瞭望遠鏡(大模型),看到星星在轉;但接下來,我們需要牛頓(學術界)來總結定律。工業界忙著賺錢,誰來研究“智能的上限在那裡”?誰來把大模型從“黑盒”變成科學?你可能覺得中國學術界不行,但最新的資料狠狠打了我一巴掌。就在近日,電腦科學領域的權威榜單 2026 CSRankings 正式發佈。在人工智慧(AI)學科的全球排名中,發生了一件極其恐怖的事情:中國高校直接包攬了全球前 10 名!圖:中國大學包攬人工智慧學科排名前十南京大學以 23.7 分的絕對優勢,力壓全球名校,位居世界第一!這意味著當“富二代”在前面狂奔時,我們的“科學家”正在後面默默鋪路。05| 別慌,這其實是一場“華人的內戰”最後,如果你還在擔心因為技術封鎖,中國人的腦子會輸給美國人,那看看最近矽谷瘋傳的一條消息吧,保證讓你心態炸裂。有確鑿的內部消息稱:馬斯克最近為了追求極致的效率,對 Grok 團隊進行了大換血,甚至辭退了團隊中“最後一個白人成員”。在他眼裡,沒有膚色之分,只有程式碼寫得好不好之分。不管你願不願意承認,現在的 Grok 團隊,幾乎已經成了名副其實的“全華班”。圖:馬斯克的 xAI 團隊這不是個例。就在前不久,Meta 豪擲幾十億美元收購了那個紅遍全球的 AI Agent 產品——Manus。而 Manus 背後的核心團隊,正是地地道道的中國團隊。圈內一直有個段子:所謂的中美 AI 競爭,歸根結底,已經演變成了“在大洋彼岸的華人工程師”和“在中國本土的華人工程師”之間的賽跑。硬核資料早就擺在那了:圖:AI 人才分佈,來自@@bookwormengr中國佔據了全球 AI 人才的 48.68%,將近一半!而美國是 35.47%。在“人腦”這個核心要素上,我們不僅不窮,反而是在“富礦”上。即使在 OpenAI 這種“AI 聖殿”,員工來源高校的前 20 名榜單中,除了美國本土名校,僅有的兩所入圍高校,正是中國的清華和北大。圖:OpenAI 員工高校來源寫在最後聽完大佬的“20% 論”,我反而更樂觀了。因為科技史有一個鐵律:技術代差最容易被時間抹平,但應用的壁壘卻難以踰越。前段時間我去了趟新加坡,按理說夠發達了吧?但在那兒的幾天,我真有一種“回到上個世紀”的錯覺——沒有隨掃隨走的單車,沒有絲滑的支付,幹啥都不如國內方便。這恰恰證明了:決定勝負的,往往不是底層的“黑科技”,而是誰能把技術變成最親民的“日子”。技術決定下限,但應用生態決定上限。在這方面,還沒人捲得過中國。一旦戰場轉移到應用層,把這些“中國優勢”加進去,這 20% 的勝算,我看至少得翻倍。你怎麼看?未來 AI 的決勝點,是“技術參數”還是“落地應用”? (AI范兒)
2025年AI十大事件:DeepSeek開源炸場,Google絕地反擊,獨角獸扎堆IPO
卡帕西還點讚了AI Coding。智東西12月31日消息,昨晚,外媒The Information做了2025年度AI十大關鍵事件總結,細數了DeepSeek開源引爆整個大模型產業、Google強勢回歸、Meta優勢不再及小扎狂挖人等產業發展的重要節點。今年開年,DeepSeek攜開源模型炸場,一舉驚動全球。隨著DeepSeek的應用實踐,強化學習引起了行業內關注。今年,OpenAI在AI聊天機器人市場的領先優勢已大幅縮小,與此同時,Google強勢回歸,正帶著Gemini 3.0迎頭趕上;Meta則處於失寵的境地,花式挖人、巨額投資均未見成效。今年,AI應用開始實現真實營收,有超過25家AI應用創企實現了至少1億美元(約合人民幣6.99億元)的年化收入。晶片廠商、雲廠商與AI公司們形成了利益共同體,“循環融資交易”(circular funding deals)可能是AI熱潮中延續性最強的趨勢之一。此外,國外的OpenAI、Anthropic以及國內的智譜、MiniMax等AI獨角獸都將目光瞄準了IPO。The Information提到,在即將到來的2026年,以下事件值得重點關注:AI應用能否實現盈利,Google能否維持復甦態勢以及機器人和持續學習能力瓶頸能否突破,此外,Meta也正準備在明年發佈新的文字、圖像和視訊模型。值得一提的是,前特斯拉AI總監、OpenAI聯合創始人安德烈·卡帕西(Andrej Karpathy)對大模型的態度,尤其是在程式設計能力上,從表示懷疑發生了180度急轉,卡帕西稱:“如果能將過去一年左右出現的工具有效整合,我的工作效率可能提升十倍。”站在一年的末尾回望這一年,以下關於2025年AI的十大關鍵事件令人難忘:01. DeepSeek突襲Meta巨額投資AI,Google找回節奏1、一月的DeepSeek時刻2025年剛剛拉開帷幕,DeepSeek拋出重磅開源炸彈,宣佈開源DeepSeek-R1模型,並聲稱其性能足以比肩甚至超越OpenAI、Anthropic和Meta的頂尖AI模型,同時訓練成本卻低得多。一時間,矽谷驚呼四起,認為AI開發者、風投機構、輝達乃至雲服務提供商都將面臨巨大衝擊,驚呼中國已在AI競賽中超越美國。無論DeepSeek後續發展如何,這一事件已然動搖了許多開發者對美國AI技術的絕對信心,而國內開源模型持續受到歡迎和關注,也真切地證明了其在AI領域有著不容小覷的競爭實力。2、強化學習的興起強化學習(RL,Reinforcement Learning)正隨著DeepSeek的應用實踐,在AI行業的其他領域迅速流行開來。該技術的核心在於,通過獎勵模型達成特定目標、懲罰其他行為的方式來訓練模型。此後,包括程式設計、製作Excel表格乃至提供醫療建議在內的多種任務中,各大主流AI實驗室紛紛開始借助RL技術提升模型表現。這一趨勢還推動了RL環境(RL environments)的興起,即為AI模型建立可模擬真實應用的副本環境,供其練習與學習。例如,Anthropic的負責人就曾提到,公司計畫在未來一年中投入高達100億美元(約合人民幣698.72億元),用於開發和建構此類RL環境。3、AI應用開始實現真實營收過去一年,業內始終存在一個核心疑問:除了AI模型企業、雲服務提供商和輝達之外,是否還有其他企業能夠真正從AI中獲利?今年,答案似乎逐漸明朗。據The Information報導,目前有超過25家AI應用創企實現了至少1億美元(約合人民幣6.99億元)的年化收入,這絕不是小數目,2026年的問題將會是,這些公司中是否有能實現盈利的。4、Meta的失寵對Meta而言,2025年是艱難的一年。四月,Meta發佈的Llama 4模型在開發者社區中反響平平;隨後在六月,Meta創始人兼首席執行長馬克·祖克柏(Mark Zuckerberg)開啟挖人大戰,向AI資料標註創企Scale AI投資143億美元(約合人民幣999.17億元),以聘請其首席執行長汪滔(Alexandr Wang)及其核心團隊,以重整公司的AI業務佈局。然而這筆巨額投資至今未見明顯成效。自此之後,Meta新組建的AI團隊僅推出了一款令人失望的AI視訊應用Vibes,隨之而來的則是內部數次重組與人才持續流失。有報導稱,Meta正準備在明年發佈新的文字、圖像和視訊模型。5、Google的強勢回歸自2022年被OpenAI推出的ChatGPT突襲而一度措手不及,並在此後多年被貼上“AI落後者”標籤的Google,終於在2025年找回了自己的節奏。今年,公司接連推出一系列備受市場好評的模型,並於11月壓軸發佈了廣受讚譽的Gemini 3.0。這一模型在程式碼生成領域取得突破性進展,成為首批突破預訓練縮放瓶頸的例證之一。Gemini 3.0觸動了OpenAI,在這一模型發佈後,OpenAI首席執行長薩姆·阿爾特曼(Sam Altman)迅速宣佈公司進入“紅色警戒”狀態。儘管目前Gemini聊天機器人在使用者規模上仍顯著落後於ChatGPT,但它正在迎頭趕上。2026年,Google能否延續這一復甦態勢,將會是行業關注的重點。02. OpenAI、Anthropic瞄準上市機器人、AI持續學習能力存疑6、AI資金進入循環如果一家AI實驗室未能從微軟、輝達或亞馬遜這類巨頭獲得資金,用於支付向其採購晶片與算力的費用,那麼它的經營模式恐怕需要重新審視了。“循環融資交易”可能是AI熱潮中延續性最強的趨勢之一,其源頭甚至能追溯至2019年微軟對OpenAI的首輪融資。對於OpenAI、Anthropic這類創企而言,這已成為一種高效的融資手段,能直接支撐它們最大的開支項:計算資源。7、川普成為AI產業的盟友自今年年初上任以來,美國總統唐納德·約翰·川普(Donald John Trump)推行了一系列被視為對AI產業利多的政策舉措,例如,簽署行政命令限制各州對AI的監管權限,加速資料中心建設的審批流程等。考慮到眾多科技公司此前投入大量時間與資金進行政治鋪墊,此類政策傾斜並不令人意外。不過,Anthropic等公司對川普政府採取了相對謹慎的態度。8、AI機器人發展不及預期去年,風險投資家們向機器人初創公司注資數十億美元,這些公司當時宣稱大模型將幫助他們開發出真正實用的機器人。然而這一願景至今未能實現,甚至許多機器人仍在犯基礎性錯誤。此外,AI機器人似乎仍需要人類遠端操控,如近期特斯拉Optimus機器人在摔倒前做出“摘頭顯”動作,挪威人形機器人公司1X Technologies推出的家務機器人Neo也需要遠端操作員人工輔助。9、AI持續學習能力存疑儘管AI實驗室已創造數百億美元的收入,但頂尖研究人員對現有技術能否通向通用人工智慧(AGI)的疑慮卻日益加深。OpenAI聯合創始人、前首席科學家伊利亞·蘇茨克弗(Ilya Sutskever)稱,要實現真正的AGI,AI必須像人類一樣,能夠從現實經驗中持續、即時地學習,也就是持續學習的能力。這類AI目前尚未成為現實,但幾乎可以斷言,每個AI實驗室都已在此方向上展開佈局。倘若持續學習技術最終取得突破,其影響將輻射至整個AI產業,由於這類方法對資料和算力的需求可能遠低於當前模型,長期以來依賴算力擴張的行業生態或將面臨重構,這對輝達等算力巨頭而言,恐怕不是一個好消息。10、各大AI創企紛紛準備上市2025年,OpenAI、Anthropic與xAI等AI創企仍以令人矚目的高估值持續融資。近期,OpenAI和Anthropic相繼釋放訊號,正積極籌備在未來幾年內推動上市;與此同時,今年12月,智譜和MiniMax先後通過港交所聆訊並遞交招股書。它們的上市意願背後存在清晰的商業邏輯:作為資本密集型的行業代表,它們希望借助當前市場對AI類股的樂觀情緒,打通可持續的融資管道。如果它們上市成功,可能為個人投資者提供從AI浪潮中受益的機會,當然,也須同時承擔泡沫可能破裂所帶來的風險。03. AI大牛卡帕西評價模型程式設計能力稱工作效率能提升10倍此外,以下是其他正在發生的事情,對於大模型的能力,卡帕西的態度在今年發生了180度大轉彎。去年10月,卡帕西曾公開批評當前的大模型,尤其指出它們在程式碼生成這類被高度宣傳的場景中實用性有限。他在一次播客訪談中提到,AI程式設計工具只能在他需要自動補全單行程式碼或編寫範本程式碼時才有效。不過,情況似乎已悄然改變。上周,卡帕西在社交平台X上發表了截然不同的看法:“‘軟體工程’這個職業正在被重構,程式設計師編寫的程式碼片段正變得越來越少且處於輔助地位。”他進一步感慨:“我有種強烈的預感,如果能將過去一年左右出現的工具有效整合,我的工作效率可能提升十倍;而如果沒有這一工作,簡直像是一種能力缺失。”雖然不清楚卡帕西具體所指的程式設計工具或模型是那一款,不過,他曾發文對Anthropic的AI程式設計工具Claude Code讚不絕口。卡帕西特別提到,Anthropic於11月推出的旗艦模型Opus 4.5及近期其他新模型,在程式碼生成能力上取得了巨大進步。04. 結語:從2025到2026:迎接AI行業的持續變革今天是2025年的最後一天,這一年,技術狂飆從未停歇,我們目睹了DeepSeek突襲矽谷、Gemini 3的反擊;也見證了Meta略帶沮喪的一年、AI機器人能力不及預期的問題。2025年,全球AI競賽打得火熱。2026年的帷幕即將拉開,關於AI技術本質、AGI等終極問題的討論仍在持續進行中,以OpenAI、Anthropic為代表的AI公司背後的高估值和狂歡,能否平穩上市扶搖而上,抑或難逃泡沫破裂的結局,這些有待2026年乃至更久之後驗證。來源:The Information (智東西)
中國 DeepSeek AI 預測:XRP、Solana、Dogecoin 到2025年底的目標價會到哪?
被稱為「ChatGPT 殺手」的中國頭部 AI——DeepSeek,發布了對 XRP、Solana(SOL) 和 Dogecoin(DOGE) 的 12 月價格展望,並提醒交易者:這三者本月都可能迎來更高的波動率,行情容易出現急拉急砸。隨著加密市場即將結束“最慘月份之一”,臨近聖誕節,整體盤面正在出現修復反彈。但從年度表現來看,2025 年對比特幣並不友善:截至撰稿時,BTC 年內(YTD)跌幅已超過 7%,年初價格接近 9.9 萬美元,如今大概率會以低於該水平的價格收官。即便如此,放大週期來看,市場的大結構仍偏向正面。分析師仍認為 XRP、SOL、DOGE 這類相對「能活下來」的強勢山寨/優質山寨,長期仍具備表現空間。在市場情緒和流動性逐步穩定後,各項目可望重新獲得向上行動能-以下是 DeepSeek AI 對其趨勢的預期推演。XRP(XRP):DeepSeek AI 認為要麼“全面崩盤”,要麼衝到 5 美元DeepSeek AI 的偏空劇本顯示:如果市場情緒持續疲軟、資金風險偏好不回升,Ripple 的 XRP 可能會從當前約 2.07 美元 出現深度回撤/瀑布式下跌,跌幅高達 91%,一路砸到接近 1 美元,並可能在 2026 年 前後維持在該低位附近。來源: Deepseek從 2025 年 XRP 的整體價格走勢來看,多頭劇本反而更佔優。不少人把 Ripple 稱為「年度進步最大幣」。因為在 2025 年 8 月,與 SEC 的訴訟最終塵埃落定,帶來了徹底的監管清晰度,進而解鎖了 11 億美元+ 的機構資金淨流入,同時 RLUSD 穩定幣 也順利上線落地。在這些利好加持下,XRP 一直守在 2 美元上方,並且還有 現貨 XRP ETF的持續資金流入提供支撐,市場信心被進一步抬升。部分分析師因此認為,XRP 接下來有機會向 3 美元 發起衝擊。來源: XRPUSD / TradingView只要 XRP 能穩守 2.00 美元上方,刷新 歷史新高(ATH) 的可能性仍然存在。圖表上曾有一次價格跌破 2 美元,當時對多頭來說就很不妙,盤面明顯轉弱。目前的關鍵突破門檻/頸線位在 2.70 美元:這裡先前是非常強的支撐位,但最近已經發生支撐轉阻力(S/R flip)。如果價格能重新收復並站穩該區域,就可能確認突破,打開上行空間,目標指向 3.70 美元 左右,對應約 80% 的上行幅度。Solana(SOL):DeepSeek AI 預測或將出現 700% 等級的突破Solana 依舊被視為本輪週期的“週期之王/強勢主線”,過去 7 天 在市場波動持續的情況下仍保持強勢,漲幅超過 2%,體現出較強的抗跌與相對強勢。DeepSeek AI 認為,Solana 可能會在 可擴展的 C 端應用 賽道進一步“加速開掛”,隨著生態持續擴張、機構採用度提升,有機會在 2026 年初 前後打出一波約 700% 級別的主升浪/突破行情。如果多頭敘事走不出來,空頭劇本其實也不會比當下更慘太多:DeepSeek 預期 SOL 可能回撤到 100 美元 附近的強支撐/心理關口,作為下一道防線。此外,光是 Solana ETF 這條線就可能為 SOL 打開通往 400 美元 的想像空間——因為目前已經吸引到明顯的機構關注,並且連續多日出現淨流入,資金面表現偏強。來源: SOLUSD / TradingView不過,SOL 眼下有個關鍵任務:必須突破並站穩 144 美元 這道強壓/套牢密集區。如果衝不過去,SOL 可能會在聖誕節前先走一波回踩/下探,然後再擇機二次衝關。要維持多頭劇本不崩,價格必須守住圖表標示的那段需求區/承接帶。一旦該區域失守,DeepSeek 預測的 100 美元 回撤目標就可能被觸發。DeepSeek:狗狗幣(DOGE)或再次衝擊 1 美元「Meme 幣市場已經涼了。」這是 CryptoQuant CEO Ki Young Ju 最近的表態,也不難理解他為什麼這麼說。從山寨盤裡 meme 幣的市佔比來看,已經快跌到新的歷史低點(ATL)。這基本說明了:曾經最能帶動散戶熱情的主線之一,現在熱度和資金都明顯退潮了——可憐的 meme 幣。來源: CryptoQuant儘管如此,DeepSeek 仍認為 meme 板塊存在修復反彈的可能性,並指出:如果 DOGE 未來能在像 X(原 Twitter) 這類大平台上被整合為支付手段,很可能會重新點燃市場情緒,觸發一波拋物線式拉升。但就目前來看,DeepSeek 更偏向空頭劇本:一旦市場風險偏好下滑、資金從 meme 敘事資產撤離,DOGE 可能出現一波深度回撤/大幅回調,甚至有概率回到 0.08 美元 附近。DOGE 現貨 ETF 的成交額已降到 14.2 萬美元,創下這些產品上線以來的最低水準。根據 SoSoValue 數據,成交量自 11 月下旬 起明顯走弱——當時日成交額還曾多次衝到 323 萬美元+。不過,DOGE 目前仍算有點抗跌:價格一直守在 0.14 美元上方。如果後續能突破並收盤站上 0.18–0.20 美元 這一段強阻力/套牢區,就能進一步確認強勢,打開上行空間,目標區間有望看向 0.24–0.26 美元。來源: DOGEUSD / TradingViewMaxi Doge:高風險高報酬的 Meme 幣押注,交易員正緊盯不放儘管 DeepSeek 等 AI 模型警告 meme 幣市場仍在承壓,但不少交易員已經在為下一輪板塊輪動提前埋伏。在這輪「重置期/洗牌期」裡,一個正在獲得關注的項目是 Maxi Doge——一個受 Dogecoin 啟發的新 meme 代幣,主打純投機敘事、高槓桿文化 和社區動能驅動。Maxi Doge 完全吃透 meme 能量:核心形像是一隻「練成大塊頭、開高槓桿的健身房老哥」Doge,象徵 risk-on 的交易心態。這裡沒有硬凹的「實用性」故事,專案定位很明確——面向懂週期、想在 meme 幣重新回到主流視野前就先拿到早期敞口的交易者。即便在市場相對冷清的階段上線,Maxi Doge 也已經募資超過 429 萬美元,說明在整體 meme 情緒偏弱的背景下,仍然出現了早期需求。代幣分配同樣是賣點之一:大約 40% 的供應量直接給到公開預售,且沒有私募/VC 輪,從而降低了「內幕盤/機構砸盤」帶來的潛在拋壓風險。此外,專案還上線了質押,為早期參與者提供最高約 72% 的年化收益(APY),讓 MAXI 持有人在等待下一波投機浪潮期間也能“邊拿幣邊吃利息”,而不是在震盪整理裡乾等。透過關注 Maxi Doge 官方 X(推特) 和 Telegram 電報群/頻道,隨時取得專案最新動態與公告。如何購買Maxi Doge($MAXI)?按此瀏覽原文免責聲明加密貨幣投資風險高,價格波動大,可能導致資金損失。本文僅供參考,不構成投資建議。請自行研究(DYOR)並謹慎決策。
從DeepSeek到豆包手機助手:中國AI下一程何去何從?
在中國AI發展史上,2025年註定會是里程碑式的一年。1月27日,DeepSeek憑藉發佈僅一周的開源推理大模型DeepSeek-R1,在蘋果應用程式商店中國區和美國區的免費榜上雙雙獲得第一,震驚世界。儘管隨著千問、豆包等大模型的崛起,DeepSeek在很多排名中不再名列前茅,但其貢獻將永載史冊。12月5日,張亞勤教授在人文清華講壇演講時說,DeepSeek在演算法、技術、系統架構上都有創新,它用1%的算力就可以達到和美國前沿大模型相似的能力。“DeepSeek出來之後,咱們和美國的差距可能就從之前的2~3年縮短到2~3個月,而且在有些應用方面,我們可能做得更好”。中國網際網路從1995年左右起步,先後經歷了PC網際網路、移動網際網路和物聯網時代。張亞勤認為,現在進入了智能體網際網路(Internet of Agents)的新時代。所謂智能體(Agent),就是具備自主智能的系統——你只需要給它設定一個目標,它就能自主規劃任務、不斷迭代,甚至自我試錯,最終達成目標。這非常像人類的行為:有個目標,自己就會去規劃路徑,依靠各種記憶和判斷去實現。未來已來。12月1日,字節跳動豆包團隊發佈了“豆包手機助手技術預覽版”,通過和中興通訊努比亞手機合作,展示了一系列驚豔表現——豆包手機助手根據使用者指令,可以在多款App應用之間自動跳轉,完成查票訂票、商品多平台比價下單、定製出行攻略、批次下載檔案等任務,完全自動化執行。智能體網際網路真的來了?毫無疑問,是的。智能體網際網路的“Aha moment”手機助手本身並非新生事物。2011年蘋果就發佈了siri,使用者可通過語音指令完成資訊查詢、電話撥打、消息傳送、裝置尋找等功能。但這樣的助手只能呼叫單個App應用,比如你要它“打開微信”它就給你打開微信。而當你提出一些跨應用、多步驟的複雜指令,如“對比一下淘寶閃購、美團、京東同款麥辣雞翅的價格,選個最低價,下單到指定地址,然後截圖發給指定聯絡人”,又如“下周我要出差,先去北京再去廣州,幫我訂一下機票和酒店,最後生成一張清單”,等等,它就一籌莫展了。這樣的多步驟複雜任務,恰好是豆包手機助手的用武之地。你只要說一聲,它就會在你手機所有的購物App裡搜尋同款商品,對比價格和規格,自動領券,選擇最低價,最後通知你“接管操作完成支付下單”;當你準備出差,它會按你的吩咐,在公司辦公軟體上向經理提交出差申請,然後訂好機票酒店;當你想給女兒推薦幾個禮物放進購物車時,如果你設定開啟的記憶中已儲存有女兒的年齡、興趣等資訊,它可直接查詢符合女兒年齡、偏好的方案,無須你再逐一交代細節……這些前所未有的新體驗,讓豆包手機助手初出茅廬就成為智能體網際網路的一個“Aha moment”,也為2025年的中國AI發展貢獻了一部“收官之作”。一石激起千層浪然而,和年初DeepSeek發佈時贏得的普遍都是掌聲相比,豆包手機助手發佈後,則是一石激起千層浪。有人盛讚,AI操作手機、AI助手一定會遍地開花,我們的生活也會完全離不開它,將來的人們會記住這歷史性的一天;有人評價,豆包和中興通訊做的這件事,是通過跟系統、跟硬體廠深度綁在一起,讓豆包獲得系統級權限,可以橫跨所有App看通知、讀頁面、點按鈕,從一個App升級成手機系統內常駐的大腦,成為作業系統的一部分而不是普通的第三方軟體,這是AI時代的手機新入口;有人擔心,AI手機助手依賴高等級的系統權限,能在執行使用者指令的操作過程中讀取到螢幕內容——包括銀行卡資訊和聊天記錄,會帶來安全隱患;也有一些國民級應用App、金融機構App迅速截停了豆包手機助手,使用者在手機上無法呼叫,或遭遇異常退出、無法再次登錄。更深層次的討論也開始了——若使用者習慣將操作完全交由AI助手代理,各種App都將被“管道化”,以流量分發為核心的網際網路商業模式將會被顛覆;而對手機廠商來說,將從“硬體製造商”變為“AI服務分發商”,其賣點不再是硬體參數的堆積,而是能否接入最強AI能力,提供最豐富和高效的場景服務。豆包手機助手到底是什麼?其實,它是在豆包App的基礎上,和手機廠商在作業系統層面合作的AI助手軟體。目前還只有一款和中興通訊合作的工程樣機,也只面向開發者和科技愛好者少量發售。在官方視訊的結尾,豆包手機助手特別提示,“儘管演示內容均為真實錄製,但受限於大模型技術的不確定性,相關場景無法保證百分百復現。當前產品實際可用性與團隊預期仍有差距,未來仍將持續迭代最佳化”。可見,它還是剛剛起步。但沒想到,發佈當日,中興通訊A股漲停,在行業和社會迅速引起巨大波瀾。在被一些App截停後,豆包手機助手發佈了《關於微信登錄異常的情況》《關於調整AI操作手機能力的說明》等公告,澄清了所謂“未經授權獲取系統權限”的謠言,指出豆包手機助手在努比亞手機上擁有系統級的INJECT_EVENTS權限,所以其相關產品才能跨屏、跨應用模擬點選事件,完成使用者操作手機的任務需求,它也不會代替使用者進行相關授權和敏感操作。關於使用者隱私,豆包手機助手表示,不會在雲端儲存任何使用者螢幕內容。“當使用者給助手指令,要求操作手機時,助手確實需要讀取螢幕,否則無法完成使用者任務,但螢幕和操作過程都不會在伺服器端留下儲存,且所有的相關內容也都不會進入模型訓練,確保使用者隱私安全。”豆包助手再次強調,此次發佈的是“技術預覽版”,是面向行業、AI技術愛好者的探索產品,提示普通消費者謹慎選擇。豆包助手還表示,計畫在接下來的一段時間,在部分場景對AI操作手機的能力做一些規範化調整,如限制刷分、刷激勵的使用場景,進一步限制金融類應用的使用,限制部分遊戲類使用場景等。顯然,豆包手機助手的社會影響大大超出了團隊預想,因此團隊開始採取一種“退”的姿態。退一步,進行調整,並努力和App們以及手機廠商達成共識,找到合作模式。一場技術上的顛覆式創新,開始步入社會化共識與服務規則的形成期,以及新舊利益如何分配的磨合期。但無論如何,因為豆包手機助手的發佈,中國的網際網路服務掀開了新的一頁,即從App主導到智能體驅動。這一頁既已掀開,就不可能再倒回去。為什麼是豆包?豆包手機助手和中興通訊合作的AI手機,顯示出“大模型+手機廠商”的清晰趨勢。在國內,華為、vivo、小米、OPPO、榮耀等手機廠商都在佈局AI智能體賽道,都有自己的AI助手,都在個性化互動、跨應用執行方面探索。大模型初創公司智譜去年10月也曾官宣推出了端側AI智能體,可以訂外賣、訂票、回覆微信,智譜還與三星在AI手機領域達成戰略合作;在國際上,蘋果去年6月發佈了Apple Intelligence,定位為系統級AI助手,但直到iPhone 17系列仍未完全落地。GoogleGemini也在與三星深度合作,強化其語音助手Bixby。大家都在做AI手機助手,為何唯有豆包一鳴驚人,真正讓使用者眼前一亮?單從技術實現路徑看,豆包助手和別的助手採用的都是圖形使用者介面智能體(GUI Agent)技術。該技術通過多模態大模型,即時解析手機螢幕截圖,識別出按鈕、文字、圖示等UI元素,然後呼叫作業系統提供的服務,模擬人的手指動作。只要人在螢幕上可以手動完成的操作,從理論上說,GUI Agent都能代勞。在過去,使用者必須通過手動方式在不同App間切換,才能完成複雜任務。這是因為,如果使用者想讓AI與App互動,App開發者必須主動開放資料和功能介面,而基於安全、商業利益等考慮,App們並不會開放。GUI Agent的邏輯不是請求App們的許可,而是直接模仿人的點選、滑動、輸入等動作,跨應用完成操作。當然,這裡有一個前提,就是與手機作業系統在系統層面深度整合,獲得系統級權限來呼叫各種App。那麼,是不是有了GUI Agent,再加上擁有系統級權限、避免了APP的“玻璃牆”限制,就能做好AI手機助手呢?也不是。否則,手機廠商已經先發先至了。其實,在手機助手跨應用自動執行任務的背後,涉及到多種技術能力,如通過自然語言精準理解使用者的複雜、多步驟指令,將使用者需求拆解成多個子任務,知道呼叫什麼App去執行什麼任務,以及在自動完成操作後根據結果進行反饋調整、持續改善。並不只是獲得系統級權限去呼叫App那麼簡單。AI手機助手的本質,是基於大模型技術,通過模擬人類點選和圖形處理實現智能互動。其關鍵在於預訓練模型的研發,以及在預訓練、後訓練和業務理解這三個環節上是否有突破,有創新。在中國網際網路公司中,字節跳動是對AI技術投入最大、時間最久的之一。除了眾所周知的推薦技術,在大模型之前,字節跳動也在量子化學、AI蛋白質設計等領域有諸多投入。為了發展大模型業務,字節跳動單獨設定了“豆包股”長期激勵,鼓勵內部創新,鼓勵開展有技術高度的創新,以建立壁壘。雖然字節跳動的大模型業務不是全球最早,但轉型迅速,在基礎設施如萬卡叢集訓練等方面投入巨大,且穩定性很好,為技術實現奠定了基礎。豆包手機助手一出生就與眾不同,極大刷新了使用者體驗,和豆包大模型在視覺理解、推理、GUI(圖形介面)識別等方面均處於國際第一梯隊是分不開的。在中國大模型公司中,豆包對“蒸餾”的限制最嚴格,這也避免了依賴他人的模型導致“屋下架屋”、效果受限等問題。“通過模擬人類點選進行圖形處理”,這個概念早就有人提出,並不新鮮,其他手機廠商和App廠商也都在做,但從豆包手機助手的實測和使用看,字節跳動是國內首個從技術能力上能把這一技術真正做到可用程度的企業。當有些廠商還在為“如何讓助手生成更流暢的文字”努力時,豆包手機助手已經能自主絲滑地完成複雜操作,這就是技術優勢所拉開的代際差距。所以,豆包手機助手的超常表現,歸根結底在於技術領域的硬核創新。這和之前DeepSeek在混合專家模型(MoE)架構和多頭潛在注意力機制(MLA)等方面的自主創新頗為相似,都是先站上技術的高地,接著才有出眾的產品。AI手機助手的下一步儘管豆包手機助手展現出了新互動模式的巨大潛力,但它要真正進入千家萬戶,還有很長路要走。除了自身的產品迭代最佳化,以及讓使用者更加放心(比如爭取在不久的將來,在本地端側模型上實現和雲端同樣的效果),它還需要和行業各方有更充分溝通,以共建更清晰、可預期的規則。就眼前遭遇的被一些App封禁的問題,豆包手機助手需要將心比心,和它們坦誠協商,以解決在技術預覽版手機上的使用限制問題。長期而言,則要努力探索合作與分享的具體機制安排。豆包手機助手已明確“無自研手機計畫”,而是希望通過生態合作模式,嵌入不同品牌的手機機型。這是一種開放的態度,將有利於合作的達成。有專家預測,在智能體網際網路時代,有可能形成“使用者付費+廠商分成”的模式:使用者為智能助手的便捷服務支付少量費用,豆包與合作的App廠商按一定比例分配收益;對於免費的App應用,則可通過流量導流、資料共享等方式實現共贏。在這個過程中,最難跨越的關隘,還是現有App生態的流量與利益格局。同時,手機大廠是否願意合作,以何種方式合作,也存在大量博弈空間。可以設想的是,不管豆包手機助手有多麼強大,未來都不可能只有一個AI手機助手。既然是大勢所趨,必然會引來多個參與者。就像電商App,有淘寶,也有拼多多,有京東,有抖音電商,等等。當然,因為手機助手更像“大腦”,使用者在使用、比較之後,大機率會選擇某一個可信賴的助手,長期使用,越用越習慣,而不太可能像電商App一樣,同時使用幾個。騰訊總裁劉熾平在2025Q3財報電話會上表態,微信最終將推出自研AI智能體,讓使用者在微信生態內即可利用AI完成多項任務。當豆包手機助手點亮了一盞燈,一定會帶動和加速更多盞燈亮起來。這對於廣大使用者一定是好事。就此而言,無論怎樣的超級App,都應該避免簡單基於商業競爭的考量,用“一刀切”的方式否定使用者合理使用AI的權利。因為當它們將來要推出手機助手的時候,也會面臨和今天豆包類似的問題。無論最終模式如何,豆包手機助手的創新都值得鼓勵。App時代的“多應用切換”是使用者的痛點,誰能更好地解決這個痛點,誰就會得到使用者的認同。使用者也將成為這場智能化變革的最大受益者。從生成式AI到智能體AI,從移動網際網路到智能體網際網路,從App林立到AI手機助手統籌,豆包手機助手用一個個具象化的場景,讓使用者感受到大模型等技術帶來的便利。它雖然還沒有正式發佈,卻已讓人們看到,智能體AI將徹底改變我們與手機的互動方式,讓科技真正服務於生活本身。人工智慧時代的新黎明正在降臨。不管還有多少挑戰和難題,新質生產力都將穿越,也必將穿越。 (秦朔朋友圈)
DeepSeek 與 Google 的暗戰:誰會最先找到通往 AGI 的鑰匙?
自從 2022 年 ChatGPT 3.5 橫空出世,讓世人領略到 AI 的非凡魅力;再到 2024 年底 DeepSeek 驚豔登場,給國人帶來了巨大的驚喜與自信。如今,各類大模型(LLM)及 AI 應用已經深刻地改變了我們的生活。AI 每天都在增強功能。昨天做不到的事,今天已經能做;前天做不好的題,今天已經可以輕鬆解決。我們彷彿回到了蒸汽機投入實用後的那段時間——新技術、新發明以肉眼可見的速度狂飆突進。然而,在這波 AI 浪潮的狂歡背後,科技界仍存爭議:LLM 真的是通往 AGI(通用人工智慧)的正確方向嗎? 或者說,僅靠當前的 LLM 就足夠了嗎?答案其實很清晰:不夠。Transformer 是一次偉大的突破,但要讓機器真正“理解世界”,我們仍需要更多類似 Transformer 等級的全新核心技術。凍結的知識快照不是智能我們知道,當前大模型的訓練方法,本質是讓 Transformer 在大量文字裡尋找“詞與詞的關係”,並基於這些統計關係預測下一個詞。訓練完成後,所有知識都被壓縮排最終的權重檔案裡,像一張凝固的“知識快照”。 但之後它不會自動學習新知識,除非重新訓練或微調。明天產生的新知識無法自動融入,換言之,LLM 本身沒有即時的學習能力。從上面你很快能就發現當前基於LLM的AI的兩個“死穴”:其一,LLM只是一個機率模型,它知道“E=mc²”後面大機率跟著“愛因斯坦”,也知道怎麼用這句話造句,但它不知道這公式是怎麼推匯出來的,也不知道如果光速改變了世界會怎樣。它學到的是知識的“投影”(文字),而不是知識的“本體”(邏輯與因果)。其二,它的知識是靜態的。正因為它沒有一個知識的生產過程,所以它不知道這些知識是如何產生的,為什麼會形成這個知識,這些知識為什麼對,為什麼錯。正如X上有某位大佬所言:“當前 AI 水平離真正的 AGI 還差好幾個 Transformer 等級的創新。” 但遺憾的是,現在還沒有可以取代Transformer的新架構。在這一點上,中美其實“站在同一片荒原上”,未來怎麼走,大家都在摸索。理解知識的積累過程,是智能的前提嗎?回想一下人類的學習方式:從小到大,知識是一點一滴積累的,對同一個知識點的理解也是層層遞進的。相比之下,LLM 生成即“凍結”,缺失了進化的過程,所以它“知道”,但它不“理解”。那麼,將知識的積累過程保留下來,會不會是通往 AGI 的一個方向?如果 AI 能復現人類對某個現象的認識過程,是否就能理解其背後的原理,從而舉一反三?至少,可以將這個認識過程當作一種“元模式”記錄下來,在處理新問題時按部就班地套用。當然,這個觀點也存在爭議。因為許多科學突破是“斷層式”的——先是天才的“靈光一閃”,後人再通過邏輯去填補證據。不過,從人類的普適經驗來看,模擬知識的積累過程,肯定有助於 AI 達到人類智能的平均水準。我們不指望 AI 頓悟成愛因斯坦,但達到專家的水平是完全可期的。這個過程可以從兩個角度來分析一是知識的層級性,高階知識依賴並建立在前導知識(基礎概念、技能)之上。比如說,一個人學習流體力學前,需掌握微積分與線性代數。二是學習的漸進性,對具體知識的理解和記憶,是一個從模糊、具體到清晰、抽象的動態過程。對於個人來說,對新概念的掌握,會從最初的生硬記憶,逐漸內化為可靈活運用的直覺。Google的思考:結構化與記憶針對第一個維度(層級性),Google 試圖將模型的知識結構化為不同時間尺度、相互巢狀的層級,提出了“巢狀學習”(Nested Learning)與記憶框架。(參見論文:https://abehrouz.github.io/files/NL.pdf)。“巢狀學習”的核心是將一個複雜的AI模型,視為一系列相互巢狀的最佳化問題。簡單來說,模型的不同部分可以像人的不同記憶一樣,以不同的“速度”學習和更新。簡單舉例,一般的LLM訓練,對於一個文字來說,可以理解成一個平面,從上而下,流式分佈。然後訓練過程相當於找出每個字之間的關係機率,因為處理窗口的關係,如果算到了後面的內容,往往與前面的文字關係就小了,計算時用的權重也就低了。如同一篇小說,即使作者費盡心機在結尾時回應了開頭處的一個梗,填了開始的一個坑,對於AI來說,也是拋媚眼給瞎子看。AI早就忘記了。而Google的巢狀學習,則是對同一篇文章,除正常的訓練方式外,還對文章先在不同的層次上進行預處理。比如先做一個文章梗概,先過一遍文章,把所有作者預埋的“坑”提取出來……,這樣一篇文字就變成了n篇不同維度文字,然後在訓練時,這些文字都參與訓練,可以平行處理,只是訓練參數和訓練方法不同。能根據性質選擇不同精度和速度的計算,而且訓練出的成果是可以疊加的,不再是單一固定的權重檔案。上面的圖就是一個例子,左邊是普通的深度學習訓練過程,而右邊則是巢狀學習的例子,你能看出對於同一個內容,根據進行多次訓練,只是廣度和精度各不相同。此外,Google 的 ReasoningBank 記憶框架(相關論文:https://arxiv.org/abs/2509.25140 )則更進一步。它的思路是讓AI智能體從以往的成功與失敗經驗中,主動提煉出結構化的“記憶項”。每個“記憶項”包含策略標題、描述和推理內容,本質上是對低級經驗的抽象總結。當面對新任務時,AI會檢索並應用這些抽象原則來指導行動,這模擬了人類專家運用已有知識框架去解決新問題的過程。DeepSeek的嘗試:多維感知與自驗證推理針對第二個維度(漸進性),DeepSeek 在感知與推理兩個層面都展現了對人類思維模式的深度模擬。首先在視覺感知層面,以 DeepSeek-OCR 為例,他們採用了一種獨特的“多解析度訓練”思路:不僅僅是對圖像進行簡單的向量化,而是試圖模擬人類的視覺認知過程——即 “從模糊到清晰” 的動態掃描。對同一張圖片(場景),模型會同時學習其低解析度的宏觀輪廓與高解析度的微觀細節(相關技術細節可參看此前的公眾號文章)。這種策略暗合了人類大腦處理視覺資訊的生物學模式:先建立全域印象,再填充局部細節。不僅在感知上發力,DeepSeek 更試圖在推理層面重現人類的“反思”能力。DeepSeek 不僅在基礎大模型上發力,向各個專家模型演進(如 DeepSeekMath-V2),更在某些領域嘗試模擬人類的“記憶狀態”。在 2025 年 11 月 27 日剛剛發佈的 DeepSeekMath-V2(論文:https://arxiv.org/pdf/2511.22570 )中,DeepSeek 引入了突破性的 “自驗證”(Self-Verification) 機制。這相當於讓 AI 進化出了“自我監考”的能力。傳統的模型像是一個只顧填答題卡的考生,只在乎最終答案是否命中;而 DeepSeekMath-V2 則像是一個嚴格的老師,它不僅檢查答案的對錯,更會一步步審視 解題過程(Process) 的邏輯鏈條。通過這種方式,模型不再是“蒙”對了一個答案,而是真正確信自己“理解”了這道題。這種從“結果導向”向“過程導向”的轉變,是 AI 邁向深度邏輯推理的關鍵一步。DeepSeek 的“自驗證”機制構成了一個自我完善的智能閉環:它不僅能評估解題過程,更能主動生成推理步驟並對其驗證。這模仿了人類的元認知與自我學習能力。古人倡導“吾日三省吾身”,而 AI 則可實現瞬時、高頻的自我審視與迭代最佳化。如下圖(論文中的附圖)所示,隨著驗證次數(最高達7次)的增加,模型解決問題的能力顯著提升,充分體現了通過“反覆自學”實現能力進化的潛力。雖然上述分別列舉了兩家公司的例子,但在技術演進的洪流中,它們並非孤立存在。Google 的巢狀學習涉及不同清晰度資料的處理,而 DeepSeek 的多專家系統(MoE)及多層次資料訓練,本質上也是在對知識進行結構化拆解。結尾:AGI的未來方向,也許正在悄悄顯現從 Google 到 DeepSeek,我們正在看到一個趨勢越來越明確:真正的智能,不是更大的模型,而是更“結構化”的學習過程。未來的 AI,可能會具備:能分層理解知識結構的能力能保持多時間尺度記憶的能力能自主總結“經驗規則”的能力能在模糊與清晰之間漸進切換的能力能記錄“知識的進化史”而不是只記錄結論這些能力加在一起,不是“下一代更大的 Transformer”,而是:一種能夠像人一樣“成長”的架構。我們或許距離 AGI 仍有數個重要突破,但路徑正在變得越來越清晰:不是簡單堆算力、堆資料,而是讓模型獲得“理解知識如何生成”的能力。或許,真正的智能不是一夜之間的奇蹟,而是一次又一次讓機器“重走人類認知之路”的漫長積累。而現在,我們正在走在這條路的最前面。 (亍雲旁觀)
“大交易”:一場遲到的美國AI戰略自救
前不久,前白宮人工智慧特別顧問本·布坎南(Ben Buchanan)在《外交事務》雜誌上拋出了他的“大交易”設想,華盛頓的政策圈似乎又找到了一個新的敘事框架。這位在2021至2025年間負責協調拜登政府AI政策的核心人物,試圖為美國AI發展勾勒一幅宏大藍圖:科技行業必須要與政府達成戰略協議,前者獲得能源基礎設施、人才管道和國家安全保護,後者則將AI整合進國防體系並確保其不破壞所謂的民主價值。這個提議聽起來既務實又理想主義——問題恰恰在於,它可能過於理想主義了。更令人玩味的是,就在布坎南構想這份“大交易”之後不久,DeepSeek正在以一種近乎諷刺的方式,拆解著他所依賴的核心假設。這家被美國晶片出口管制嚴密封鎖的公司發佈了DeepSeek V3.2,實測在開源模型中達到全球最高水平,與海外頂級閉源模型的差距縮小至約一個季度。該模型分為普通版和特別版:普通版性能對標 GPT-5,特別版則媲美 Gemini 3.0 Pro,尤其在數學與推理能力上表現突出。這不僅是一次技術突破,更是對美國“晶片遏制”戰略的一記響亮耳光。晶片政策的分歧:遏制還是“上癮”?在理解布坎南“大交易”的困境之前,我們必須先釐清美國AI戰略界內部一個長期存在但鮮被公開討論的根本分歧——關於對華晶片政策,決策圈內實際上存在著兩種截然不同的哲學。本·布坎南(Ben Buchanan)第一派可稱為“技術依賴派”或“上癮派”。這派觀點認為,應當允許中國大陸在一定程度上獲取美國的先進AI晶片,使其AI生態系統建立在美國技術基礎之上,形成一種戰略性依賴。這種策略的邏輯類似於毒品販子的手法:先讓對方上癮,然後控制供應鏈就能控制對方的技術發展節奏。輝達最初對中國大陸市場的態度——不斷推出降級版晶片如H800、H20來規避出口管制——某種程度上體現了這種思路。這一派相信,只要中國大陸市場的AI產業離不開美國晶片,華盛頓就永遠掌握著關閘的權力。第二派則是布坎南所代表的“全面遏制派”。在他們看來,任何對中國大陸的技術滲透都是危險的,必須在製造端實施最嚴格的封鎖,不給中國大陸任何獲取先進算力的機會。這種觀點在2022年10月拜登政府大幅擴展晶片管制時達到高峰,不僅限制先進晶片出口,還限制晶片製造裝置,甚至禁止美國公民為中國大陸半導體公司提供技術支援。布坎南在文中對中國大陸“軍民融合”戰略的惡毒指控,都清晰地顯示出他屬於這一陣營。然而諷刺的是,DeepSeek的成功恰恰證明了兩種策略可能都已失效。“上癮派”的夢想破滅了——中國大陸AI企業並沒有因為依賴美國晶片而束手就擒,反而在被斷供後激發出了驚人的技術創新能力。而“遏制派”的策略同樣遭遇挫敗——即便在最嚴格的出口管制下,中國大陸企業仍通過演算法最佳化、架構創新和可能的走私管道,實現了技術突破。正如智庫Stimson Center的分析所言,出口管制的“卡脖子”假設本身就是一個謬誤——每一次限制都會留下縫隙和漏洞,而目標國家的適應和創新能力往往被嚴重低估。更值得警惕的是,這種封鎖正在催生一個危險的結果:“設計出去”(designing out)。當美國技術被完全排除在外時,中國大陸企業別無選擇,只能開發完全繞過美國技術的替代方案。華為用麒麟9000s晶片替代高通,導致高通2024年損失6000萬套晶片銷售,就是一個典型案例。長期來看,這種“設計出去”將永久性地侵蝕美國在全球半導體生態系統中的地位——當中國大陸建立起完整的國產替代體系後,即便美國日後放鬆管制,市場份額也難以奪回。布坎南的“大交易”建立在全面遏制戰略能夠成功的假設之上,但現實已經在反覆證明,這個假設正在崩塌。能源幻覺與基礎設施的政治死結“大交易”的第一個支柱是政府為AI產業提供充足的能源基礎設施。布坎南在文中引用的資料令人震撼:到2028年,美國AI產業僅新增電力需求就將達到500億瓦,相當於整個阿根廷的用電量,資料中心可能消耗美國電力產量的12%。與此形成鮮明對比的是,中國大陸每年新增電力容量達12%,而美國在2005至2020年間幾乎沒有新增淨電力。這個對比看似有力,實則掩蓋了一個更深層的問題:為什麼美國在過去二十年間幾乎沒有新增電力?答案並非技術能力不足,而是美國社會在能源政策上陷入了一個幾乎無解的政治死結。一方面,任何大規模的新建電廠項目——無論是傳統化石能源還是核電——都會面臨環保團體、地方社區和監管機構的多重阻撓。美國的環境影響評估流程可以讓一個電廠項目耗費十年以上時間仍無法開工。另一方面,即便是清潔能源項目,也面臨著“不要建在我家後院”(NIMBY)效應的困擾。加州在可再生能源方面走在全美前列,但其電網卻經常因為峰值負荷而陷入危機,而新建輸電線路的項目同樣被環保和土地糾紛困住。布坎南樂觀地認為,AI驅動的能源繁榮將創造就業、加速清潔能源開發,實現“無碳化營運”。但這種敘事忽略了一個殘酷現實:在美國當前的政治生態下,任何大規模基礎設施建設都會遭遇曠日持久的黨派爭鬥、司法訴訟和監管審批。川普政府宣佈的5000億美元Stargate項目看起來宏大,但如果我們回顧川普第一任期內承諾的基礎設施投資有多少真正落地,就不難理解這些承諾的可信度。美國電力短缺狀況(@華盛頓大學)更諷刺的是,當前美國政治氛圍下,對AI的態度本身就充滿分裂。一部分人將AI視為新的經濟引擎和國家安全工具,另一部分人則擔心AI導致失業、隱私侵犯和社會不平等。在這種背景下,要求政府為AI產業大規模投資能源基礎設施,本身就可能引發激烈的政治反彈。那些在鏽帶州失去工作的選民,那些被高房價和生活成本壓得喘不過氣的中產階級,憑什麼要為矽谷科技巨頭買單,幫助他們獲得更多電力來訓練AI模型?中國大陸的優勢恰恰在於其政治體制能夠快速調動資源實施大規模基礎設施建設。當決策者確定AI是戰略重點時,電廠、資料中心和配套設施能夠以驚人的速度上馬。這不是單純的技術問題,而是治理模式的差異。布坎南的“大交易”假設美國政府能夠提供類似的支援,但這個假設本身就忽視了美國政治體制的結構性制約。人才政策的內在矛盾“大交易”的第二個支柱是維持國際人才管道。布坎南正確地指出,70%的頂級在美AI研究人員出生在國外,65%的領先美國AI公司至少有一位移民聯合創始人。但他對人才政策面臨的困境卻語焉不詳。川普政府在移民政策上的立場與布坎南的設想存在根本衝突。將H-1B簽證費用提高到10萬美元,大幅收緊國際學生入學政策(2025年可能導致國際學生入學率下降30%-40%),這些措施的政治邏輯與“保持AI人才流入”完全相悖。但問題的關鍵在於:這些移民政策並非出於無知或短視,而是回應了美國社會中一股強大的民粹主義情緒。對許多美國選民而言,保護美國就業、防止移民搶走機會是比維持AI領先地位更直觀、更緊迫的關切。當布坎南談論引進更多外國AI人才時,政治現實是,這種政策會被解讀為“讓外國人來搶美國人的工作”。技術精英和政策制定者可以用國家安全和經濟競爭力來論證開放移民的必要性,但這套話語在政治市場上的說服力遠不如美國優先來得有力。更深層的矛盾在於,布坎南一方面希望政府幫助AI產業獲得更多國際人才,另一方面又主張將AI深度整合進國家安全體系。但任何有過安全審查經驗的人都知道,涉及國防和情報的項目對人員背景有極其嚴格的要求。當AI越來越多地被用於軍事和情報用途時,如何平衡人才開放性和安全審查的嚴格性?那些來自對手國家的研究人員——包括大量來自中國大陸的AI專家——是否還能參與最前沿的AI研發?布坎南似乎希望魚與熊掌兼得:既要保持美國作為全球AI人才磁石的地位,又要加強對AI技術的國家安全管控。但這兩個目標存在內在張力。中國大陸正在積極招募AI專家回國,而美國日益收緊的移民政策和日益政治化的科研環境,可能會加速這種人才回流。當美國大學裡的中國大陸留學生發現自己無論多麼優秀都難以獲得工作簽證,當他們的研究因為敏感性而受到限制時,選擇回國就成了理性選擇。而這正是布坎南所擔心的人才外流。政府-產業合作的結構性障礙“大交易”設想的核心是政府與科技行業建立深度合作關係。但這個設想面臨一個尷尬的現實:雙方之間存在著深刻的互不信任。從科技行業的角度看,政府意味著繁瑣的監管、緩慢的決策流程和對商業創新的束縛。矽谷文化崇尚“快速行動,打破陳規”(Move fast and break things),而政府系統的特點恰恰是謹慎、官僚和風險規避。更重要的是,科技公司擔心與政府深度合作會限制它們的商業自由。如果將AI系統深度整合進國家安全體系,這意味著更嚴格的出口管制、更多的安全審查、更少的國際市場機會。對那些在全球營運的科技巨頭而言,這是一個巨大的代價。從政府的角度看,科技公司則是一群難以管束、唯利是圖、不考慮國家安全的商業實體。OpenAI、Google、Meta這些公司都曾因為與軍方和情報機構的合作項目引發內部員工抗議。2018年,Google員工成功迫使公司退出了與國防部的Maven項目。這種企業內部對軍事合作的牴觸,讓政府對科技公司的可靠性深表懷疑。布坎南在白宮任職期間主導的一些政策,恰恰體現了這種張力。拜登的AI行政命令要求科技公司自願做出安全承諾,但這些承諾大多停留在原則層面,缺乏強制約束力。而當政府試圖實施更嚴格的監管時,科技公司又會動用強大的遊說力量來阻撓。這種貓捉老鼠的遊戲,很難想像能夠昇華為布坎南所設想的“大交易”式的戰略夥伴關係。更根本的問題在於,“大交易”假設政府和產業能夠就AI的發展方向達成一致。但實際上,雙方對許多核心問題存在嚴重分歧:AI應該多大程度上開放?誰應該控制最強大的AI系統?AI帶來的經濟收益應該如何分配?AI技術應該向那些國家和實體出口?在這些問題上,政府和科技公司的利益遠非完全一致,而且內部也存在嚴重分歧。要在這樣的基礎上達成一個覆蓋能源、人才、國家安全等多個維度的“大交易”,難度之大可想而知。時間的殘酷性與政策的惰性布坎南正確地指出,AI進步速度極快,政策制定者必須在極短時間內做出重大決策。但他的“大交易”卻要求完成一系列在美國政治體制下通常需要數年甚至數十年才能實現的任務:大規模能源基礎設施建設、移民政策根本性改革、政府-產業關係的深刻重構、國家安全體系的全面AI化。這裡存在一個根本性的時間錯配:AI技術的演進以月為單位,而美國政治體制的變革以年甚至十年為單位。在拜登任期內,布坎南主導的AI行政命令確實取得了一些進展,建立了AI安全研究所等機構,推動了一些自願承諾。但這些成就與“大交易”設想的宏大目標相比,幾乎微不足道。而現在,川普政府正在系統性地拆除拜登時期建立的許多AI治理框架,包括放鬆晶片出口管制——這正是布坎南最擔心的事情。政治周期的不穩定性使得任何長期戰略都難以為繼。一個政府費盡心力建立的政策框架,可能在下一個政府上台後被全盤推翻。在這種情況下,要求政府和產業就一個需要十年、二十年才能見效的“大交易”達成共識,無異於痴人說夢。中國大陸的體制優勢恰恰在於其政策的連續性和長期性——當中國大陸將AI確定為戰略重點時,這個戰略可以持續數十年不變,資源投入也能夠保持穩定。美國的民主制度有其獨特價值,但在需要長期戰略規劃的技術競爭中,這種制度的弱點暴露無遺。布坎南的“大交易”本質上是一個防禦性戰略,它的出發點是“防止失去領先地位”而非“創造新的突破”。這種心態本身就反映了一種焦慮和不自信。當一個國家的AI戰略主要由防止對手超越而非創造革命性創新驅動時,它實際上已經喪失了先機。中國大陸的AI戰略雖然也包含趕超美國的目標,但更重要的是建立自主創新能力和獨立的技術生態。DeepSeek的成功正是這種戰略思維的體現——與其被動等待美國放鬆封鎖,不如主動探索新的技術路徑。難以癒合的裂痕最終,“大交易”之所以難以實現,根源在於它試圖彌合的那些裂痕可能本就無法癒合。美國社會在AI問題上的分裂是深層次的。技術精英認為AI是下一個增長引擎,必須不惜一切代價保持領先;普通民眾擔心AI導致失業和不平等;環保主義者反對為AI建設消耗巨量資源的資料中心;民族主義者要求限制移民和技術出口;國際主義者強調開放合作的重要性。這些立場之間的矛盾,不是一個“大交易”就能調和的。政府和科技公司之間的不信任是結構性的。科技公司希望政府提供支援但不要干預,政府希望科技公司服從國家利益但又不完全信任它們。這種關係更像是一種脆弱的共生而非穩固的夥伴關係。美國和中國大陸的競爭是長期的、全方位的,不可能通過單一的技術封鎖或單一的政策框架來解決。中國大陸的制度優勢在於能夠集中資源和長期規劃,美國的制度優勢在於創新活力和市場機制。但當競爭進入到需要國家動員和長期規劃的階段時,美國的制度優勢可能反而成為劣勢。布坎南的“大交易”建立在一個過於樂觀的假設之上:只要政府和產業達成正確的協議,美國就能夠延續其在AI領域的領先地位。但現實可能更加殘酷——不是美國不夠努力,不是政策不夠好,而是歷史的鐘擺正在擺向另一邊。技術霸權從來不是永恆的,曾經的領先者往往會在新的技術範式轉換中失去優勢。AI可能正是這樣一次範式轉換,而“大交易”式的修補方案,或許只是延緩衰落而非逆轉趨勢。在DeepSeek證明封鎖無效、川普政府拆除拜登時期的AI治理框架、美國社會在移民和能源政策上陷入僵局的當下,布坎南的“大交易”更像是一個精緻的政策幻想,而非可行的戰略方案。這並非說布坎南的診斷不對——美國在AI領域確實面臨能源、人才、安全整合等多重挑戰。問題在於,他開出的藥方需要一個在當前美國政治現實中幾乎不存在的條件:高度共識、長期承諾、政府效率和超黨派合作。當這些前提條件都不具備時,“大交易”就只能停留在紙面上,成為又一個華盛頓政策圈裡的美好願景,而非能夠真正塑造現實的戰略行動。 (心智觀察所)
硬剛Gemini 3.0 Pro! DeepSeek V3.2實測性能確實猛,但這三個「硬傷「不得不防
矽谷早晨驚醒,發現追兵已至。當中國對手拿出了旗鼓相當的產品,卻打出「完全免費」的底牌時,這場仗該怎麼打?12月1日,DeepSeek帶著他們的全新“雙子星”—— DeepSeek-V3.2正式版(日常推理的“打工仔”)和DeepSeek-V3.2-Speciale(專攻推理的“頂流學霸”)殺回來了:奧賽金牌手軟,推理能力比肩,直接開啟了AIAI客戶時代的“谷歌免費”。「人們以為DeepSeek只是一次性突破,但我們以更大規模回歸。」計畫貢獻者陳方在社群媒體上的這句「豪言」,無異於向全球AI圈下了一封「硬核戰書」。網路上瞬間“炸鍋”,無數用戶湧入評論區,甚至有人高呼:“ChatGPT安息吧!”YouTube知名SEO部落客朱利安·戈爾迪(Julian Goldie)在評測後直言,這款剛發布的模型,在幾乎每一項頂級推理和編程測試中,都對那些收費昂貴、壁壘森嚴的閉源巨頭發起了強有力的挑戰。DeepSeek-V3.2不僅在程式設計競賽中榮獲金牌,更輕鬆解決奧賽級數學難題。更瘋狂的是:它完全開源,支援直接本地運行,成本甚至僅為GPT-5的1/25。正如網友所驚呼:「有些人還沒意識到這次發布的分量有多重!」它不僅是一項技術突破,更是對「開源比閉源落後8個月」這一說法的當頭棒喝。現在,讓我們一起研讀「剛剛宣布」的白皮書和技術報告,看看這個V3.2究竟是如何成為「頂級AI時代的免費入場券」的。有網友評論認為:中國在頂尖模型應用層的「追趕窗口」已經基本關閉,中美AI競賽已進入「貼身肉搏」的白熱化階段。你還在支付昂貴的API費用?不好意思,別人已經開著免費的「頂配超跑」上路了。性能狂飆:頂級「學霸」Speciale的「奧賽金牌收割機」模式戈爾迪表示,這次發布的焦點無疑是DeepSeek-V3.2-Speciale。這個擁有6850億參數的“大聰明”,直接帶著一疊金光閃閃的“成績單”登場,讓所有閉源模型都感受到了來自“別人家孩子”的壓力。它在幹什麼?它在「收割金牌」中:· 2025年國際數學奧林匹克競賽(IMO):Speciale豪取35/42分,穩拿金牌· 國際資訊學奧林匹克競賽(IOI):拿下492/600分,再度拿下金牌· ICPC世界總決賽:一口氣解出10/12題,直接鎖定總排名第二有網友看到這串成績直接“原地起飛”:“IMO、CMO、ICPC金牌?🏅 DeepSeek的Speciale不僅僅是突破極限——它簡直是顛覆極限!這種競技成就足以引起整個領域的關注。絕對震撼!🚀”在與閉源巨頭的正面PK中,Speciale 更是打出了“王牌”,直接把GPT-5和Gemini 3.0 Pro“摁在地上摩擦”。它用事實證明:開源模型也能成為頂尖層次的代名詞。· 在美國數學競賽AIME 2025上:Speciale 變體通過率達96.0% ,高於GPT-5-High 的94.6% 和Gemini-3.0-Pro 的95.0%· 在哈佛-麻省理工HMMT 數學競賽:Speciale 得分99.2%,超越Gemini 的97.5%同時,標準版V3.2模型在AIME 和HMMT 分別得分93.1% 和92.5%,雖略低於前沿模型,但在計算資源消耗上顯著較少。在程式設計基準測試中,DeepSeek-V3.2在SWE-Verified 上成功解決了73.1% 的真實軟體錯誤,與GPT-5-High 的74.9%旗鼓相當。在衡量複雜編碼工作流程的Terminal Bench 2.0上,其得分為 46.4%,顯著高於GPT-5-High 的35.2%。這意味著它在處理實際複雜程式碼工作流程時,思路更清晰、效率更高,簡直就是程式設計師的「頂級外掛」。有網友評論道,DeepSeek 的新模型非常強大,性能已經能和GPT-5、Gemini 3.0這些頂級閉源模型正面競爭了。尤其是它在數學競賽等推理任務上的表現,標誌著開源模型達到了新高度。既然免費開源的模型已經這麼好,再花錢用閉源API 就不划算了,這宣告了開源時代的全面到來。科技白皮書「大揭密」:打破性能魔咒的三大突破DeepSeek 團隊在白皮書中坦誠了一個核心痛點:儘管開源社群在努力,但閉源專有模型(如Anthropic、OpenAI)的效能提升速度更快,二者之間的效能差距非但沒有縮小,反而看似在擴大。但V3.2就是來終結這個「魔咒」的。它的成功並非靠簡單堆疊算力,而是基於三大革命性的技術突破。戈爾迪對此進行了總結:1. 更聰明的注意力機制傳統大模型在閱讀長文件時之所以“慢且貴”,是因為它們必須採用更複雜的注意力機制,時刻關注所有內容,導致成本呈指數級暴增。 DeepSeek 的解決方案是稀疏注意力(DSA)配合“閃電索引器”。DSA 不再掃描所有Token,而是透過「閃電索引器」快速檢索並只挑選最重要的部分進行聚焦。這就像是AI 快速瀏覽一本厚書,只抓住精華要點,而不是逐字閱讀。因此,即使在處理128K 的超長上下文時,推理速度也提升了約3.5倍,記憶體佔用減少70%,同時Token 消耗量顯著降低,大大提升了成本效益。2. 「砸錢」後訓練大多數AI 公司在模型主訓練(預訓練)完成後,只會投入一小部分預算進行後訓練(微調)。而DeepSeek 直接「財大氣粗」地將其預訓練總預算的10% 以上,全部投入了基於強化學習的後訓練中。這種大規模的投入和專門的強化學習技術,大大提升了模型的穩定性和最終能力。他們不再滿足於“能用”,而是追求“專家級性能”。3. 智能體合成訓練:拒絕“金魚記憶”V3.2的Speciale 模型是專為智能體(Agent)能力而生的。它的核心優勢是「思考鏈」方法,可以多次呼叫工具而不必重新開始。這種訓練的目的是消除傳統AI 在跨工具調用時「丟失思路」的頑疾。為了實現目標,DeepSeek 創建了一個專門的合成訓練流程,旨在改善工具使用能力。這使得V3.2原生支援「推理加工具使用」,完美適用於複雜的多步驟工作流程。親身體驗:免費跑「金牌模型」的誘惑與現實戈爾迪認為,最瘋狂的部分在於,你完全可以在當地運行它。DeepSeek V3.2在託管網站Hugging Face 上已經完整開源,模型權重、聊天模板、本地運行指南一應俱全。對於文件助理建構者、智能體系統開發者和長上下文聊天機器人設計師來說,這簡直是天降橫福。極客硬派可以直接去Hugging Face 或GitHub,使用VLLM、Kaggle、Google Colab 或Transformers 函式庫,動手折騰程式碼,本地運行。嚐鮮體驗派則可造訪DeepSeek 官網,直接在網頁端體驗V3.2的「深度思考」與「非深度思考」模式。然而,我們也要保持清醒:如實測所見,目前V3.2還沒完全整合到像Ollama 或Open Router 這樣方便的第三方平台。如果你不是“代碼狂魔”,你必須經歷“複雜的編碼工作”才能本地部署,那麼它的便利性確實打了折扣。戈爾迪吐槽道:“老實說,對我來說,如果使用起來不那麼方便——比如必須去Hugging Face,然後折騰代碼等等——我可能不會經常使用,因為這會耗費我大量時間。”但如果它能直接整合在聊天介面裡,戈爾迪表示會很有興趣測試並看看它的表現。優勢與限制:五大爽點與三大局限當然,再強的模型也有其「成長的煩惱」。戈爾迪總結了DeepSeek V3.2的五大優勢(爽點):能夠處理超大上下文(DSA 機制紅利)、推理高效(速度快如閃電),在推理和工具使用方面表現卓越(Agent 能力強大),具備專家級性能(基準測試中擊敗付費模型),並且完全開源。不過,它也有三大限制:在近期世界知識方面仍有滯後(需要外部檢索RAG 來「補課」),標記效率不夠優化,且在極其複雜的推理上仍需打磨。在戈爾迪看來,V3.2應該被視為“推理和工作流引擎”,而不是知識問答機。如果你是文件助理建構者、智能體系統開發者或長上下文聊天機器人設計師,它就是你苦候多時的「神兵利器」!DeepSeek V3.2的發布,不僅是一個新模型,更是一個歷史性的轉捩點。它用實打實的效能數據和慷慨的開源策略,宣告了:開源與閉源之間的效能差距正在迅速抹平。(網易科技)